論文の概要: A Minimalist Example of Edge-of-Stability and Progressive Sharpening
- arxiv url: http://arxiv.org/abs/2503.02809v1
- Date: Tue, 04 Mar 2025 17:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:14.258242
- Title: A Minimalist Example of Edge-of-Stability and Progressive Sharpening
- Title(参考訳): エッジ・オブ・ステイビリティとプログレッシブ・シャープニングのミニマリスト例
- Authors: Liming Liu, Zixuan Zhang, Simon Du, Tuo Zhao,
- Abstract要約: エッジ・オブ・安定性 (EoS) とプログレッシブ・シャーニング (PS) は古典的なグラディエント・ダイス解析に挑戦している。
本稿では,2次元入力を持つ2層ネットワークを紹介し,一方の次元が応答に関連し,他方が無関係であることを示す。
本研究では,大きな学習率下での漸進的シャープニングと自己安定化の存在を証明し,トレーニング力学とシャープネスの非漸近解析を確立した。
- 参考スコア(独自算出の注目度): 40.35175786562617
- License:
- Abstract: Recent advances in deep learning optimization have unveiled two intriguing phenomena under large learning rates: Edge of Stability (EoS) and Progressive Sharpening (PS), challenging classical Gradient Descent (GD) analyses. Current research approaches, using either generalist frameworks or minimalist examples, face significant limitations in explaining these phenomena. This paper advances the minimalist approach by introducing a two-layer network with a two-dimensional input, where one dimension is relevant to the response and the other is irrelevant. Through this model, we rigorously prove the existence of progressive sharpening and self-stabilization under large learning rates, and establish non-asymptotic analysis of the training dynamics and sharpness along the entire GD trajectory. Besides, we connect our minimalist example to existing works by reconciling the existence of a well-behaved ``stable set" between minimalist and generalist analyses, and extending the analysis of Gradient Flow Solution sharpness to our two-dimensional input scenario. These findings provide new insights into the EoS phenomenon from both parameter and input data distribution perspectives, potentially informing more effective optimization strategies in deep learning practice.
- Abstract(参考訳): 近年のディープラーニング最適化の進歩は、エッジ・オブ・安定性(EoS)とプログレッシブ・シャーニング(PS)の2つの興味深い現象を明らかにしており、古典的なグラディエント・ディフレッシュ(GD)分析に挑戦している。
現在の研究アプローチでは、ジェネラリストのフレームワークやミニマリストの例を使って、これらの現象を説明する上で重大な制限に直面している。
本稿では,2次元入力を持つ2層ネットワークを導入することにより,最小主義的アプローチを推し進める。
このモデルを用いて,大規模学習率下での漸進的シャープニングと自己安定化の存在を厳密に証明し,GD軌道全体に沿ったトレーニング力学とシャープネスの非漸近的解析を確立した。
さらに、最小主義者の例を、最小主義者と一般主義者の分析の間でよく理解された「安定な集合」の存在を整理し、グラディエント・フロー・ソリューション・シャープネスの分析を2次元の入力シナリオに拡張することで、既存の作品に結びつける。
これらの結果は、パラメータと入力データ分布の観点からのEoS現象に関する新たな洞察を与え、ディープラーニングの実践においてより効果的な最適化戦略を示す可能性がある。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Outliers with Opposing Signals Have an Outsized Effect on Neural Network
Optimization [36.72245290832128]
自然データにおける深度とヘビーテール構造との相互作用から生じるニューラルネットワーク最適化の新たな現象を同定する。
特に、プログレッシブ・シャープニングと安定性の端について、概念的に新しい原因を示唆している。
強い反対信号を持つトレーニングデータにおいて,2組のオフレーヤ群が有意な影響を示した。
論文 参考訳(メタデータ) (2023-11-07T17:43:50Z) - Universal Sharpness Dynamics in Neural Network Training: Fixed Point Analysis, Edge of Stability, and Route to Chaos [5.854190253899593]
ニューラルネットワークの勾配降下ダイナミクスでは、損失ヘッセン(シャープネス)のトップ固有値はトレーニングを通して様々な堅牢な現象を示す。
1つのトレーニング例に基づいて訓練された単純な2ドル層線形ネットワーク(UVモデル)が、実世界のシナリオで観察されるすべての本質的なシャープネス現象を示すことを示した。
論文 参考訳(メタデータ) (2023-11-03T17:59:40Z) - Gradient constrained sharpness-aware prompt learning for vision-language
models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。
最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。
本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T17:13:54Z) - Trajectory Alignment: Understanding the Edge of Stability Phenomenon via
Bifurcation Theory [14.141453107129403]
我々は、勾配降下軌道に沿って、損失ヘッセンの最大の固有値(シャープネスとしても知られる)の進化について研究する。
トレーニングの初期段階ではシャープネスが増加し、最終的には2/text(ステップサイズ)$のしきい値に近く飽和する。
論文 参考訳(メタデータ) (2023-07-09T15:16:45Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。