論文の概要: Trajectory Alignment: Understanding the Edge of Stability Phenomenon via
Bifurcation Theory
- arxiv url: http://arxiv.org/abs/2307.04204v2
- Date: Thu, 26 Oct 2023 15:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 01:17:54.421234
- Title: Trajectory Alignment: Understanding the Edge of Stability Phenomenon via
Bifurcation Theory
- Title(参考訳): 軌道アライメント:分岐理論による安定性現象の端の理解
- Authors: Minhak Song, Chulhee Yun
- Abstract要約: 我々は、勾配降下軌道に沿って、損失ヘッセンの最大の固有値(シャープネスとしても知られる)の進化について研究する。
トレーニングの初期段階ではシャープネスが増加し、最終的には2/text(ステップサイズ)$のしきい値に近く飽和する。
- 参考スコア(独自算出の注目度): 14.141453107129403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cohen et al. (2021) empirically study the evolution of the largest eigenvalue
of the loss Hessian, also known as sharpness, along the gradient descent (GD)
trajectory and observe the Edge of Stability (EoS) phenomenon. The sharpness
increases at the early phase of training (referred to as progressive
sharpening), and eventually saturates close to the threshold of $2 /
\text{(step size)}$. In this paper, we start by demonstrating through empirical
studies that when the EoS phenomenon occurs, different GD trajectories (after a
proper reparameterization) align on a specific bifurcation diagram independent
of initialization. We then rigorously prove this trajectory alignment
phenomenon for a two-layer fully-connected linear network and a single-neuron
nonlinear network trained with a single data point. Our trajectory alignment
analysis establishes both progressive sharpening and EoS phenomena,
encompassing and extending recent findings in the literature.
- Abstract(参考訳): cohen et al. (2021) は、勾配降下(gd)軌道に沿って損失ヘッセンの最大の固有値の進化を実証的に研究し、安定性のエッジ(eos)現象を観察した。
トレーニングの初期段階(プログレッシブ・シャープニング(progressive sharpening)と呼ばれる)でシャープ性が向上し、最終的に2 / \text{(step size)$のしきい値近くで飽和する。
本稿では、EoS現象が起こると(適切な再パラメータ化の後)異なるGD軌道が初期化とは無関係に特定の分岐図に整列することを示す経験的研究から始める。
次に、この軌道アライメント現象を2層完全連結線形ネットワークと1つのデータポイントで訓練された1つの非線形ネットワークに対して厳密に証明する。
トラジェクトリアライメント分析により,最近の文献の知見を包含し,拡張する進行的シャープニングとEoS現象が確立される。
関連論文リスト
- Large Stepsize Gradient Descent for Non-Homogeneous Two-Layer Networks: Margin Improvement and Fast Optimization [41.20978920228298]
第2フェーズは、経験的リスクが一定の閾値以下に落ちてから始まり、ステップサイズに依存することを示す。
また、正規化マージンは第2相においてほぼ単調に成長し、非均一予測器のトレーニングにおいてGDの暗黙の偏りを示す。
我々の分析は、よく知られたニューラルネットワークカーネルや平均場状態を超えて、あらゆる幅のネットワークに適用できる。
論文 参考訳(メタデータ) (2024-06-12T21:33:22Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Universal Sharpness Dynamics in Neural Network Training: Fixed Point
Analysis, Edge of Stability, and Route to Chaos [6.579523168465526]
ニューラルネットワークの降下力学では、Hessian of the loss(シャープネス)のトップ固有値はトレーニングを通して様々な堅牢な現象を示す。
1つのトレーニング例に基づいて訓練された単純な2ドル層線形ネットワーク(UVモデル)が、実世界のシナリオで観察されるすべての本質的なシャープネス現象を示すことを示した。
論文 参考訳(メタデータ) (2023-11-03T17:59:40Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Analyzing Sharpness along GD Trajectory: Progressive Sharpening and Edge
of Stability [8.492339290649031]
本稿では,最適化軌道に沿ったGDダイナミックスとシャープネスを解析することを目的とする。
出力層重みのノルムをシャープネスダイナミクスの興味深い指標として実証的に同定する。
本稿では,2層完全連結線形ニューラルネットワークにおけるEOSのシャープネス挙動の理論的証明について述べる。
論文 参考訳(メタデータ) (2022-07-26T06:37:58Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文 参考訳(メタデータ) (2021-06-07T16:29:59Z) - Directional Convergence Analysis under Spherically Symmetric
Distribution [21.145823611499104]
勾配流や勾配降下を伴うニューラルネットワークを用いた線形予測子(すなわち、ゼロマージンの分離可能なデータセット)の学習に関する基礎的な問題を考える。
2つの隠れノードしか持たない2層非線形ネットワークと(ディープ)線形ネットワークに対して、方向収束保証と正確な収束率を示す。
論文 参考訳(メタデータ) (2021-05-09T08:59:58Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。