論文の概要: Universal Sharpness Dynamics in Neural Network Training: Fixed Point
Analysis, Edge of Stability, and Route to Chaos
- arxiv url: http://arxiv.org/abs/2311.02076v1
- Date: Fri, 3 Nov 2023 17:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 13:21:31.749911
- Title: Universal Sharpness Dynamics in Neural Network Training: Fixed Point
Analysis, Edge of Stability, and Route to Chaos
- Title(参考訳): ニューラルネットワークトレーニングにおける普遍的シャープネスダイナミクス:固定点解析、安定性の端、カオスへの経路
- Authors: Dayal Singh Kalra, Tianyu He, Maissam Barkeshli
- Abstract要約: ニューラルネットワークの降下力学では、Hessian of the loss(シャープネス)のトップ固有値はトレーニングを通して様々な堅牢な現象を示す。
1つのトレーニング例に基づいて訓練された単純な2ドル層線形ネットワーク(UVモデル)が、実世界のシナリオで観察されるすべての本質的なシャープネス現象を示すことを示した。
- 参考スコア(独自算出の注目度): 6.579523168465526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In gradient descent dynamics of neural networks, the top eigenvalue of the
Hessian of the loss (sharpness) displays a variety of robust phenomena
throughout training. This includes early time regimes where the sharpness may
decrease during early periods of training (sharpness reduction), and later time
behavior such as progressive sharpening and edge of stability. We demonstrate
that a simple $2$-layer linear network (UV model) trained on a single training
example exhibits all of the essential sharpness phenomenology observed in
real-world scenarios. By analyzing the structure of dynamical fixed points in
function space and the vector field of function updates, we uncover the
underlying mechanisms behind these sharpness trends. Our analysis reveals (i)
the mechanism behind early sharpness reduction and progressive sharpening, (ii)
the required conditions for edge of stability, and (iii) a period-doubling
route to chaos on the edge of stability manifold as learning rate is increased.
Finally, we demonstrate that various predictions from this simplified model
generalize to real-world scenarios and discuss its limitations.
- Abstract(参考訳): ニューラルネットワークの勾配降下ダイナミクスでは、損失(シャープ性)のヘシアンのトップ固有値は、トレーニングを通して様々な堅牢な現象を示す。
これには、訓練初期のシャープネス(シャープネスの低減)の間にシャープネスが減少する可能性がある早期政権や、プログレッシブシャープニングや安定性の端といった後の時間行動が含まれる。
1つのトレーニング例に基づいて訓練された単純な2ドル層線形ネットワーク(UVモデル)は、実世界のシナリオで観察されるすべての本質的なシャープネス現象を示す。
関数空間における動的固定点の構造と関数更新のベクトル場を解析することにより、これらのシャープネストレンドの背後にあるメカニズムを明らかにする。
我々の分析は
(i)早期の鋭さの低下と漸進的な鋭さの背後にあるメカニズム
(二)安定性の限界に必要な条件、及び
3) 学習率の増加に伴い, 安定多様体の端面のカオスへの周期的分岐経路が増加する。
最後に,この単純化モデルから得られる様々な予測を実世界のシナリオに一般化し,その限界について議論する。
関連論文リスト
- Exploring the Stability Gap in Continual Learning: The Role of the Classification Head [0.6749750044497732]
安定性のギャップは、トレーニング中に部分的に回復する前に、モデルが最初に学習したタスクのパフォーマンスを失う現象である。
バックボーンと分類ヘッドが安定性のギャップに与える影響を評価できるツールとして,NMC(Nest-mean Classifier)を導入した。
実験の結果, NMCは最終性能を向上するだけでなく, 各種連続学習ベンチマークのトレーニング安定性を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-11-06T15:45:01Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Investigating the Edge of Stability Phenomenon in Reinforcement Learning [20.631461205889487]
強化学習(RL)における安定性現象の端点を探る
教師付き学習との大きな違いにもかかわらず、安定性現象の端は、非政治的な深いRLに存在している。
この結果から,ニューラルネットワーク構造は問題領域間の移動を最適化するダイナミクスをもたらす可能性があるが,深いRL最適化の特定の側面は,教師付き学習のような領域と区別できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-09T15:46:27Z) - Trajectory Alignment: Understanding the Edge of Stability Phenomenon via
Bifurcation Theory [14.141453107129403]
我々は、勾配降下軌道に沿って、損失ヘッセンの最大の固有値(シャープネスとしても知られる)の進化について研究する。
トレーニングの初期段階ではシャープネスが増加し、最終的には2/text(ステップサイズ)$のしきい値に近く飽和する。
論文 参考訳(メタデータ) (2023-07-09T15:16:45Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Analyzing Sharpness along GD Trajectory: Progressive Sharpening and Edge
of Stability [8.492339290649031]
本稿では,最適化軌道に沿ったGDダイナミックスとシャープネスを解析することを目的とする。
出力層重みのノルムをシャープネスダイナミクスの興味深い指標として実証的に同定する。
本稿では,2層完全連結線形ニューラルネットワークにおけるEOSのシャープネス挙動の理論的証明について述べる。
論文 参考訳(メタデータ) (2022-07-26T06:37:58Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。
我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文 参考訳(メタデータ) (2020-02-25T11:40:27Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。