論文の概要: Stability & Generalisation of Gradient Descent for Shallow Neural
Networks without the Neural Tangent Kernel
- arxiv url: http://arxiv.org/abs/2107.12723v1
- Date: Tue, 27 Jul 2021 10:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:49:26.409305
- Title: Stability & Generalisation of Gradient Descent for Shallow Neural
Networks without the Neural Tangent Kernel
- Title(参考訳): ニューラルタンジェントカーネルを含まない浅層ニューラルネットワークにおけるグラディエントDescentの安定性と一般化
- Authors: Dominic Richards, Ilja Kuzborskij
- Abstract要約: 我々はニューラル・タンジェント・カーネル(NTK)やポリアック・ロジャシエヴィチ(PL)の仮定を使わずに新しい一般化と過剰なリスク境界を証明した。
本稿では,GDの一般化と過剰リスクが,初期化から最も短いGD経路を持つ補間ネットワークによって制御されていることを示すオラクル型境界を示す。
NTKに基づくほとんどの分析とは異なり、ラベルノイズによる回帰に注目し、早期停止を伴うGDが一貫したことを示す。
- 参考スコア(独自算出の注目度): 19.4934492061353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit on-average algorithmic stability of Gradient Descent (GD) for
training overparameterised shallow neural networks and prove new generalisation
and excess risk bounds without the Neural Tangent Kernel (NTK) or
Polyak-{\L}ojasiewicz (PL) assumptions. In particular, we show oracle type
bounds which reveal that the generalisation and excess risk of GD is controlled
by an interpolating network with the shortest GD path from initialisation (in a
sense, an interpolating network with the smallest relative norm). While this
was known for kernelised interpolants, our proof applies directly to networks
trained by GD without intermediate kernelisation. At the same time, by relaxing
oracle inequalities developed here we recover existing NTK-based risk bounds in
a straightforward way, which demonstrates that our analysis is tighter.
Finally, unlike most of the NTK-based analyses we focus on regression with
label noise and show that GD with early stopping is consistent.
- Abstract(参考訳): 重パラメータの浅いニューラルネットワークを訓練するために,平均的な勾配降下のアルゴリズム安定性(gd)を再検討し,ニューラル・タンジェント・カーネル(ntk)やpolyak-{\l}ojasiewicz(pl)の仮定なしに新たな一般化と過剰なリスク境界を証明する。
特に、GDの一般化と過剰リスクは、初期化から最も短いGDパスを持つ補間ネットワーク(ある意味では、最小の相対ノルムを持つ補間ネットワーク)によって制御されることを示すオラクル型境界を示す。
これはカーネル化された補間体で知られているが、この証明はgdが中間カーネル化なしでトレーニングしたネットワークに直接適用される。
同時に、ここで開発されたオラクルの不等式を緩和することにより、既存のNTKベースのリスク境界を直接的な方法で復元し、分析がより厳密であることを示す。
最後に、NTKに基づくほとんどの分析とは異なり、ラベルノイズによる回帰に注目し、早期停止を伴うGDが一貫したことを示す。
関連論文リスト
- How many Neurons do we need? A refined Analysis for Shallow Networks
trained with Gradient Descent [0.0]
ニューラル・タンジェント・カーネル・システムにおける2層ニューラルネットワークの一般化特性を解析した。
非パラメトリック回帰の枠組みにおいて、最小限最適であることが知られている収束の速い速度を導出する。
論文 参考訳(メタデータ) (2023-09-14T22:10:28Z) - Stabilizing RNN Gradients through Pre-training [3.335932527835653]
学習理論は、勾配が深さや時間で指数関数的に成長するのを防ぎ、トレーニングを安定させ改善することを提案する。
我々は、既知の安定性理論を拡張し、データとパラメータの分布について最小限の仮定を必要とするディープ・リカレント・ネットワークの幅広いファミリーを包含する。
本稿では,この問題を緩和するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-23T11:48:35Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。