論文の概要: Gradient flow dynamics of shallow ReLU networks for square loss and
orthogonal inputs
- arxiv url: http://arxiv.org/abs/2206.00939v1
- Date: Thu, 2 Jun 2022 09:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 13:17:58.831582
- Title: Gradient flow dynamics of shallow ReLU networks for square loss and
orthogonal inputs
- Title(参考訳): 正方形損失と直交入力に対する浅いReLUネットワークの勾配流れのダイナミクス
- Authors: Etienne Boursier and Loucas Pillaud-Vivien and Nicolas Flammarion
- Abstract要約: 勾配降下法によるニューラルネットワークの訓練は、ディープラーニング革命の基盤となっている。
本稿では,1つのニューラルネットワークの小さな初期化における平均二乗誤差に対する勾配流のダイナミクスについて述べる。
- 参考スコア(独自算出の注目度): 19.401271427657395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training of neural networks by gradient descent methods is a cornerstone
of the deep learning revolution. Yet, despite some recent progress, a complete
theory explaining its success is still missing. This article presents, for
orthogonal input vectors, a precise description of the gradient flow dynamics
of training one-hidden layer ReLU neural networks for the mean squared error at
small initialisation. In this setting, despite non-convexity, we show that the
gradient flow converges to zero loss and characterise its implicit bias towards
minimum variation norm. Furthermore, some interesting phenomena are
highlighted: a quantitative description of the initial alignment phenomenon and
a proof that the process follows a specific saddle to saddle dynamics.
- Abstract(参考訳): 勾配降下法によるニューラルネットワークの訓練は、ディープラーニング革命の基盤となっている。
しかし、近年の進展にもかかわらず、その成功を説明する完全な理論はいまだに欠落している。
本稿では,直交入力ベクトルに対して,小初期化時の平均二乗誤差に対する1階層reluニューラルネットワークの学習における勾配流れダイナミクスの正確な記述を示す。
この設定では、非凸性にもかかわらず、勾配流はゼロ損失に収束し、最小変動ノルムに対するその暗黙バイアスを特徴付ける。
さらに興味深い現象として、初期アライメント現象の定量的記述と、プロセスが鞍の力学に特定の鞍に従うことの証明がある。
関連論文リスト
- Early Directional Convergence in Deep Homogeneous Neural Networks for
Small Initializations [2.310288676109785]
本稿では、深部均一性ニューラルネットワークのトレーニング時に発生する勾配流れのダイナミクスについて検討する。
ニューラルネットワークの重みは標準では小さく、カルーシュ=クーン=タッカー点に沿ってほぼ収束している。
論文 参考訳(メタデータ) (2024-03-12T23:17:32Z) - Early alignment in two-layer networks training is a two-edged sword [24.43739371803548]
1次最適化手法によるニューラルネットワークのトレーニングは、ディープラーニングの実証的な成功の核心にある。
小さな初期化は一般的に、単純な解に対して勾配降下が暗黙的に偏っている特徴学習体制に関連付けられている。
この研究は、元来Maennelらによって導入された初期のアライメントフェーズの一般的かつ定量的な記述を提供する。
論文 参考訳(メタデータ) (2024-01-19T16:23:53Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Magnitude and Angle Dynamics in Training Single ReLU Neurons [45.886537625951256]
勾配フロー $w(t)$ を等級 $w(t)$ と角 $phi(t):= pi -theta(t) $ に分解する。
小型初期化は深い単一ReLUニューロンに対して緩やかな収束速度を誘導する。
論文 参考訳(メタデータ) (2022-09-27T13:58:46Z) - Support Vectors and Gradient Dynamics for Implicit Bias in ReLU Networks [45.886537625951256]
単一ニューロンReLUネットワークのトレーニングにおけるパラメータ空間の勾配流れのダイナミクスについて検討する。
具体的には、ReLUネットワークにおいて、なぜ、どのようにしてReLUネットワークが一般化されるかにおいて重要な役割を果たすサポートベクトルの観点で、暗黙のバイアスを発見できる。
論文 参考訳(メタデータ) (2022-02-11T08:55:58Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - On the Convex Behavior of Deep Neural Networks in Relation to the
Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。
言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文 参考訳(メタデータ) (2020-01-14T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。