Fugu-MT 論文翻訳(概要): Trajectory Alignment: Understanding the Edge of Stability Phenomenon via Bifurcation Theory

論文の概要: Trajectory Alignment: Understanding the Edge of Stability Phenomenon via Bifurcation Theory

arxiv url: http://arxiv.org/abs/2307.04204v1
Date: Sun, 9 Jul 2023 15:16:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-11 14:48:09.956226
Title: Trajectory Alignment: Understanding the Edge of Stability Phenomenon via Bifurcation Theory
Title（参考訳）: 軌道アライメント:分岐理論による安定性現象の端の理解
Authors: Minhak Song, Chulhee Yun
Abstract要約: 我々は、勾配降下軌道に沿って、損失ヘッセンの最大の固有値(シャープネスとしても知られる)の進化について研究する。トレーニングの初期段階ではシャープネスが増加し、最終的には2/text(ステップサイズ)$のしきい値に近く飽和する。
参考スコア（独自算出の注目度）: 18.668531108219415
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Cohen et al. (2021) empirically study the evolution of the largest eigenvalue of the loss Hessian, also known as sharpness, along the gradient descent (GD) trajectory and observe a phenomenon called the Edge of Stability (EoS). The sharpness increases at the early phase of training (referred to as progressive sharpening), and eventually saturates close to the threshold of $2 / \text{(step size)}$. In this paper, we start by demonstrating through empirical studies that when the EoS phenomenon occurs, different GD trajectories (after a proper reparameterization) align on a specific bifurcation diagram independent of initialization. We then rigorously prove this trajectory alignment phenomenon for a two-layer fully-connected linear network and a single-neuron nonlinear network trained with a single data point. Our trajectory alignment analysis establishes both progressive sharpening and EoS phenomena, encompassing and extending recent findings in the literature.
Abstract（参考訳）: cohen et al. (2021) は勾配降下(gd)軌道に沿って損失ヘッセンの最大の固有値の進化を実証的に研究し、安定性のエッジ(英語版)(eos)と呼ばれる現象を観測した。トレーニングの初期段階(プログレッシブ・シャープニング(progressive sharpening)と呼ばれる)でシャープ性が向上し、最終的に2 / \text{(step size)$のしきい値近くで飽和する。本稿では、EoS現象が起こると(適切な再パラメータ化の後)異なるGD軌道が初期化とは無関係に特定の分岐図に整列することを示す経験的研究から始める。次に、この軌道アライメント現象を2層完全連結線形ネットワークと1つのデータポイントで訓練された1つの非線形ネットワークに対して厳密に証明する。トラジェクトリアライメント分析により,最近の文献の知見を包含し,拡張する進行的シャープニングとEoS現象が確立される。

関連論文リスト

Spectral Gradient Descent Mitigates Anisotropy-Driven Misalignment: A Case Study in Phase Retrieval [13.218607858857295]
スペクトル勾配法は、スケールを捨てながら方向情報を保存することによって勾配の更新を変更する。非線形位相探索モデルの動的解析により,これらの利得のメカニズムを解明する。
論文参考訳（メタデータ） (2026-01-30T07:12:58Z)
The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions [51.68215326304272]
たとえ小さな摂動であっても、同じ訓練軌跡を確実に引き起こすことで、トレーニング時間とともに急速に減少する効果が発散することを示します。この結果から,ニューラルネットワークのトレーニング安定性,微調整,モデルマージ,モデルアンサンブルの多様性の実践的意味が示唆された。
論文参考訳（メタデータ） (2025-06-16T08:35:16Z)
New Evidence of the Two-Phase Learning Dynamics of Neural Networks [59.55028392232715]
時間ウィンドウ全体にわたってネットワーク状態を比較するインターバルワイズ・パースペクティブを導入する。摂動に対するネットワークの応答はカオスから安定への移行を示す。また、この遷移点の後に、モデルの関数軌道は狭い円錐形の部分集合に制限される。
論文参考訳（メタデータ） (2025-05-20T04:03:52Z)
Towards Anomaly-Aware Pre-Training and Fine-Tuning for Graph Anomaly Detection [59.042018542376596]
グラフ異常検出(GAD)は近年注目度が高まりつつあるが、2つの重要な要因があるため、依然として困難である。 Anomaly-Aware Pre-Training and Fine-Tuning (APF)は、GADの課題を軽減するためのフレームワークである。 10のベンチマークデータセットに関する総合的な実験は、最先端のベースラインと比較してAPFの優れたパフォーマンスを検証する。
論文参考訳（メタデータ） (2025-04-19T09:57:35Z)
A Minimalist Example of Edge-of-Stability and Progressive Sharpening [40.35175786562617]
エッジ・オブ・安定性 (EoS) とプログレッシブ・シャーニング (PS) は古典的なグラディエント・ダイス解析に挑戦している。本稿では,2次元入力を持つ2層ネットワークを紹介し,一方の次元が応答に関連し,他方が無関係であることを示す。本研究では,大きな学習率下での漸進的シャープニングと自己安定化の存在を証明し,トレーニング力学とシャープネスの非漸近解析を確立した。
論文参考訳（メタデータ） (2025-03-04T17:35:13Z)
Learning Dynamics of Deep Linear Networks Beyond the Edge of Stability [14.88048518927001]
一定の学習率で勾配勾配勾配を学習した深部ニューラルネットワークは「安定性の最先端」の状態で動作している EOS以外の損失振動は周期的なカオスへの経路を辿ることを示す。本結果は,ディープネットワークにおける2つの重要な現象の説明に寄与する。
論文参考訳（メタデータ） (2025-02-27T21:32:42Z)
Large Stepsize Gradient Descent for Non-Homogeneous Two-Layer Networks: Margin Improvement and Fast Optimization [41.20978920228298]
第2フェーズは、経験的リスクが一定の閾値以下に落ちてから始まり、ステップサイズに依存することを示す。また、正規化マージンは第2相においてほぼ単調に成長し、非均一予測器のトレーニングにおいてGDの暗黙の偏りを示す。我々の分析は、よく知られたニューラルネットワークカーネルや平均場状態を超えて、あらゆる幅のネットワークに適用できる。
論文参考訳（メタデータ） (2024-06-12T21:33:22Z)
On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文参考訳（メタデータ） (2024-02-20T16:01:42Z)
Universal Sharpness Dynamics in Neural Network Training: Fixed Point Analysis, Edge of Stability, and Route to Chaos [6.579523168465526]
ニューラルネットワークの降下力学では、Hessian of the loss(シャープネス)のトップ固有値はトレーニングを通して様々な堅牢な現象を示す。 1つのトレーニング例に基づいて訓練された単純な2ドル層線形ネットワーク(UVモデル)が、実世界のシナリオで観察されるすべての本質的なシャープネス現象を示すことを示した。
論文参考訳（メタデータ） (2023-11-03T17:59:40Z)
Implicit Bias of Gradient Descent for Logistic Regression at the Edge of Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文参考訳（メタデータ） (2023-05-19T16:24:47Z)
Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文参考訳（メタデータ） (2022-10-13T15:09:54Z)
Analyzing Sharpness along GD Trajectory: Progressive Sharpening and Edge of Stability [8.492339290649031]
本稿では,最適化軌道に沿ったGDダイナミックスとシャープネスを解析することを目的とする。出力層重みのノルムをシャープネスダイナミクスの興味深い指標として実証的に同定する。本稿では,2層完全連結線形ニューラルネットワークにおけるEOSのシャープネス挙動の理論的証明について述べる。
論文参考訳（メタデータ） (2022-07-26T06:37:58Z)
Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。 GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文参考訳（メタデータ） (2022-06-08T21:32:50Z)
Vanishing Curvature and the Power of Adaptive Methods in Randomly Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文参考訳（メタデータ） (2021-06-07T16:29:59Z)
Directional Convergence Analysis under Spherically Symmetric Distribution [21.145823611499104]
勾配流や勾配降下を伴うニューラルネットワークを用いた線形予測子(すなわち、ゼロマージンの分離可能なデータセット)の学習に関する基礎的な問題を考える。 2つの隠れノードしか持たない2層非線形ネットワークと(ディープ)線形ネットワークに対して、方向収束保証と正確な収束率を示す。
論文参考訳（メタデータ） (2021-05-09T08:59:58Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)
The Break-Even Point on Optimization Trajectories of Deep Neural Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文参考訳（メタデータ） (2020-02-21T22:55:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。