論文の概要: Momentum Further Constrains Sharpness at the Edge of Stochastic Stability
- arxiv url: http://arxiv.org/abs/2604.14108v1
- Date: Wed, 15 Apr 2026 17:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.657329
- Title: Momentum Further Constrains Sharpness at the Edge of Stochastic Stability
- Title(参考訳): Momentum further Constrains Sharpness at the edge of Stochastic stability
- Authors: Arseniy Andreyev, Advikar Ananthkumar, Marc Walden, Tomaso Poggio, Pierfrancesco Beneventano,
- Abstract要約: 最近の研究は(確率的な)勾配降下が不安定な境界付近で自己組織化し、最適化と解の両方を形作ることを示唆している。
運動量を持つSGDは、バッチサイズ依存の挙動を持つ安定性のエッジ(EoSS)のような状態を示す。
- 参考スコア(独自算出の注目度): 0.5405981353784005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work suggests that (stochastic) gradient descent self-organizes near an instability boundary, shaping both optimization and the solutions found. Momentum and mini-batch gradients are widely used in practical deep learning optimization, but it remains unclear whether they operate in a comparable regime of instability. We demonstrate that SGD with momentum exhibits an Edge of Stochastic Stability (EoSS)-like regime with batch-size-dependent behavior that cannot be explained by a single momentum-adjusted stability threshold. Batch Sharpness (the expected directional mini-batch curvature) stabilizes in two distinct regimes: at small batch sizes it converges to a lower plateau $2(1-β)/η$, reflecting amplification of stochastic fluctuations by momentum and favoring flatter regions than vanilla SGD; at large batch sizes it converges to a higher plateau $2(1+β)/η$, where momentum recovers its classical stabilizing effect and favors sharper regions consistent with full-batch dynamics. We further show that this aligns with linear stability thresholds and discuss the implications for hyperparameter tuning and coupling.
- Abstract(参考訳): 最近の研究は、(確率的な)勾配降下が不安定な境界付近で自己組織化され、最適化と解の両方を形成することを示唆している。
モーメントおよびミニバッチ勾配は、実用的なディープラーニング最適化に広く用いられているが、それらが同等の不安定な状態にあるかどうかは不明である。
運動量を持つSGDは, 1つの運動量調整された安定しきい値によって説明できないバッチサイズ依存の挙動を持つ確率安定性のエッジ(EoSS)のような状態を示すことを示した。
小さなバッチサイズでは、運動量による確率的変動の増幅を反映し、バニラSGDよりも平坦な領域が好まれるが、大きなバッチサイズでは2(1+β)/η$に収束する。
さらに、これは線形安定性閾値と整合し、ハイパーパラメータチューニングとカップリングの影響について論じる。
関連論文リスト
- On the Provable Suboptimality of Momentum SGD in Nonstationary Stochastic Optimization [0.0]
各種段差系における均一な凸性および滑らか性の下でのグラディエントDescentの追跡性能を解析した。
本研究では,ドリフトによる追従誤差を大幅に増幅し,追従能力に明らかなペナルティを与えることを示す。
これらの結果は、動的環境における運動量の経験的不安定性に対する決定的な理論的根拠を与える。
論文 参考訳(メタデータ) (2026-01-18T03:27:21Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - Exact Mean Square Linear Stability Analysis for SGD [28.65663421598186]
勾配降下(SGD)の線形安定性に必要かつ十分なステップサイズを明示的条件として提示する。
SGDの安定性閾値は、全バッチ勾配ステップw.p.$-p$と1サンプル勾配ステップw.p.$p$の混合プロセスと等価であることを示す。
論文 参考訳(メタデータ) (2023-06-13T15:29:23Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Convergence and Stability of the Stochastic Proximal Point Algorithm
with Momentum [14.158845925610438]
運動量を持つ勾配近位アルゴリズム(PPA)は、より優れた縮退係数を持つ近位アルゴリズム(PPA)と比較して、近傍への高速収束を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-11T12:17:22Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。