論文の概要: Non-Euclidean Gradient Descent Operates at the Edge of Stability
- arxiv url: http://arxiv.org/abs/2603.05002v1
- Date: Thu, 05 Mar 2026 09:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.174111
- Title: Non-Euclidean Gradient Descent Operates at the Edge of Stability
- Title(参考訳): 安定端における非ユークリッド勾配Descent Operates
- Authors: Rustem Islamov, Michael Crawshaw, Jeremy Cohen, Robert Gower,
- Abstract要約: エッジ・オブ・安定性(エッジ・オブ・安定性、EoS)は、勾配降下の訓練中にヘッセンの鋭さが2/$に収束する現象である。
我々は、指向性滑らか性(Directional Smoothness Mishkin et al)のレンズを通してEoSの解釈を行う。
一般化したシャープネスを持つ非ユークリッドGDは, しきい値の2/$以上の振動を伴って, 進行的なシャープニングを示すことを示す。
- 参考スコア(独自算出の注目度): 14.915280993390725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Edge of Stability (EoS) is a phenomenon where the sharpness (largest eigenvalue) of the Hessian converges to $2/η$ during training with gradient descent (GD) with a step-size $η$. Despite (apparently) violating classical smoothness assumptions, EoS has been widely observed in deep learning, but its theoretical foundations remain incomplete. We provide an interpretation of EoS through the lens of Directional Smoothness Mishkin et al. [2024]. This interpretation naturally extends to non-Euclidean norms, which we use to define generalized sharpness under an arbitrary norm. Our generalized sharpness measure includes previously studied vanilla GD and preconditioned GD as special cases, as well as methods for which EoS has not been studied, such as $\ell_{\infty}$-descent, Block CD, Spectral GD, and Muon without momentum. Through experiments on neural networks, we show that non-Euclidean GD with our generalized sharpness also exhibits progressive sharpening followed by oscillations around or above the threshold $2/η$. Practically, our framework provides a single, geometry-aware spectral measure that works across optimizers.
- Abstract(参考訳): 安定のエッジ (EoS) は、勾配降下(GD)のトレーニング中にヘッセンの鋭さ(最大の固有値)が2/η$に収束し、ステップサイズが$η$となる現象である。
古典的滑らかさの仮定に(明らかに)違反しているにもかかわらず、EoSは深層学習において広く観察されてきたが、その理論的基礎はいまだ不完全である。
我々は、指向性滑らか性(Directional Smoothness Mishkin et al[2024])のレンズを通してEoSの解釈を行う。
この解釈は自然に非ユークリッドノルムに拡張され、任意のノルムの下で一般化されたシャープネスを定義するのに使用される。
我々の一般化されたシャープネス尺度は、以前に研究されたバニラGDとプレコンディショニングGDと、運動量のない$\ell_{\infty}$-descent, Block CD, Spectral GD, MuonなどのEoSが研究されていない方法を含む。
ニューラルネットワークの実験を通して、一般化されたシャープネスを持つ非ユークリッドGDもまた、しきい値の2/η$以上の振動によって進行的なシャープニングを示すことを示した。
実際、我々のフレームワークは、オプティマイザ間で機能する1つの幾何対応スペクトル測度を提供する。
関連論文リスト
- Implicit Regularization of Infinitesimally-perturbed Gradient Descent Toward Low-dimensional Solutions [16.45408984254899]
帰納正規化とは、局所探索アルゴリズムが低次元の解に収束する現象を指す。
暗黙の規則化の成功は、暗黙の領域に近づきながら、厳密なサドル勾配から効率的に逃れる能力にかかっている。
論文 参考訳(メタデータ) (2025-05-22T21:45:27Z) - Towards Anomaly-Aware Pre-Training and Fine-Tuning for Graph Anomaly Detection [59.042018542376596]
グラフ異常検出(GAD)は近年注目度が高まりつつあるが、2つの重要な要因があるため、依然として困難である。
Anomaly-Aware Pre-Training and Fine-Tuning (APF)は、GADの課題を軽減するためのフレームワークである。
10のベンチマークデータセットに関する総合的な実験は、最先端のベースラインと比較してAPFの優れたパフォーマンスを検証する。
論文 参考訳(メタデータ) (2025-04-19T09:57:35Z) - Learning Dynamics of Deep Linear Networks Beyond the Edge of Stability [14.88048518927001]
一定の学習率で勾配勾配勾配を学習した深部ニューラルネットワークは「安定性の最先端」の状態で動作している
EOS以外の損失振動は周期的なカオスへの経路を辿ることを示す。
本結果は,ディープネットワークにおける2つの重要な現象の説明に寄与する。
論文 参考訳(メタデータ) (2025-02-27T21:32:42Z) - Criteria and Bias of Parameterized Linear Regression under Edge of Stability Regime [38.134523847923646]
安定性のエッジ(Edge of stability、EoS)は通常、安定性のエッジ(Edge of stability、EoS)と呼ばれる。
適切な条件下では、$l$ が二次的であっても EoS が成立することを示す。
また、より大きなステップサイズを採用すると、対角線ネットワークの暗黙のバイアスに新たな光を当てた。
論文 参考訳(メタデータ) (2024-12-11T02:07:37Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Trajectory Alignment: Understanding the Edge of Stability Phenomenon via
Bifurcation Theory [14.141453107129403]
我々は、勾配降下軌道に沿って、損失ヘッセンの最大の固有値(シャープネスとしても知られる)の進化について研究する。
トレーニングの初期段階ではシャープネスが増加し、最終的には2/text(ステップサイズ)$のしきい値に近く飽和する。
論文 参考訳(メタデータ) (2023-07-09T15:16:45Z) - Analyzing Sharpness along GD Trajectory: Progressive Sharpening and Edge
of Stability [8.492339290649031]
本稿では,最適化軌道に沿ったGDダイナミックスとシャープネスを解析することを目的とする。
出力層重みのノルムをシャープネスダイナミクスの興味深い指標として実証的に同定する。
本稿では,2層完全連結線形ニューラルネットワークにおけるEOSのシャープネス挙動の理論的証明について述べる。
論文 参考訳(メタデータ) (2022-07-26T06:37:58Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Understanding the unstable convergence of gradient descent [51.40523554349091]
機械学習アプリケーションでは、ステップサイズが$L$-smoothコストの場合、ステップサイズは2/L$未満である、という条件を満たさないことが多い。
我々は、この不安定収束現象を第一原理から検討し、その背景にある主要な原因を解明する。
我々はまた、その主な特徴とそれらの相互関係を識別し、理論と実験の両方に裏打ちされた透明なビューを提供する。
論文 参考訳(メタデータ) (2022-04-03T11:10:17Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。