論文の概要: SGD at the Edge of Stability: The Stochastic Sharpness Gap
- arxiv url: http://arxiv.org/abs/2604.21016v1
- Date: Wed, 22 Apr 2026 19:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.14044
- Title: SGD at the Edge of Stability: The Stochastic Sharpness Gap
- Title(参考訳): 安定の端のSGD:確率的シャープ性ギャップ
- Authors: Fangshuo Liao, Afroditi Kolomvaki, Anastasios Kyrillidis,
- Abstract要約: フルバッチ勾配勾配(GD)とステップサイズが$$のトレーニングネットワークでは、Hessianの最大の固有値は2/$に上がり、そこでホバリングする。
citetdamian 2023selfstab は、この挙動は損失の3階構造によって誘導される自己安定化機構によって説明され、GD は制約 $ S(boldsymbol)leq 2/$ 上の射影勾配降下 (PGD) に暗黙的に従うことを示した。
ミニバッチ勾配勾配について
- 参考スコア(独自算出の注目度): 10.176501817419371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When training neural networks with full-batch gradient descent (GD) and step size $η$, the largest eigenvalue of the Hessian -- the sharpness $S(\boldsymbolθ)$ -- rises to $2/η$ and hovers there, a phenomenon termed the Edge of Stability (EoS). \citet{damian2023selfstab} showed that this behavior is explained by a self-stabilization mechanism driven by third-order structure of the loss, and that GD implicitly follows projected gradient descent (PGD) on the constraint $ S(\boldsymbolθ)\leq 2/η$. For mini-batch stochastic gradient descent (SGD), the sharpness stabilizes below $2/η$, with the gap widening as the batch size decreases; yet no theoretical explanation exists for this suppression. We introduce stochastic self-stabilization, extending the self-stabilization framework to SGD. Our key insight is that gradient noise injects variance into the oscillatory dynamics along the top Hessian eigenvector, strengthening the cubic sharpness-reducing force and shifting the equilibrium below $2/η$. Following the approach of \citet{damian2023selfstab}, we define stochastic predicted dynamics relative to a moving projected gradient descent trajectory and prove a stochastic coupling theorem that bounds the deviation of SGD from these predictions. We derive a closed-form equilibrium sharpness gap: $ΔS = ηβσ_{\boldsymbol{u}}^{2}/(4α)$, where $α$ is the progressive sharpening rate, $β$ is the self-stabilization strength, and $σ_{ \boldsymbol{u}}^{2}$ is the gradient noise variance projected onto the top eigenvector. This formula predicts that smaller batch sizes yield flatter solutions and recovers GD when the batch equals the full dataset.
- Abstract(参考訳): フルバッチ勾配降下(GD)とステップサイズ$η$を持つニューラルネットワークのトレーニングでは、ヘッセンの最大の固有値であるシャープネス$S(\boldsymbolθ)$が2/η$に上昇し、そこでホバリングする現象は安定性のエッジ(EoS)と呼ばれる。
\citet{damian2023selfstab} は、この挙動は損失の3階構造によって駆動される自己安定化機構によって説明され、GD は制約 $ S(\boldsymbolθ)\leq 2/η$ 上の射影勾配降下 (PGD) に暗黙的に従うことを示した。
ミニバッチ確率勾配降下(SGD)の場合、シャープネスは2/η$以下で安定し、バッチサイズが減少するにつれてギャップが拡大するが、この抑制については理論的には説明されていない。
確率的自己安定化を導入し、自己安定化フレームワークをSGDに拡張する。
我々の重要な洞察は、勾配ノイズがヘッセン固有ベクトル上に沿った振動力学にばらつきを注入し、立方的鋭さ低減力を強化し、平衡を2/η$以下にシフトさせることである。
フロイト{damian2023selfstab} のアプローチに従い、運動する勾配降下軌道に対する確率的予測力学を定義し、これらの予測からSGDの偏差を束縛する確率的結合定理を証明した。
例えば、$ΔS = ηβσ_{\boldsymbol{u}}^{2}/(4α)$, where $α$ is the Progress sharpening rate, $β$ is the self-stabilization strength, $σ_{ \boldsymbol{u}}^{2}$ is the gradient noise variance on the top eigenvector。
この式は、より小さなバッチサイズでよりフラットな解が得られることを予測し、バッチが完全なデータセットと等しいときにGDを回復する。
関連論文リスト
- Emergence and scaling laws in SGD learning of shallow neural networks [64.48316762675141]
等方性ガウスデータに基づいてP$ニューロンを持つ2層ニューラルネットワークを学習するためのオンライン勾配降下(SGD)の複雑さについて検討した。
平均二乗誤差(MSE)を最小化するために,学生2層ネットワークのトレーニングのためのSGDダイナミックスを高精度に解析する。
論文 参考訳(メタデータ) (2025-04-28T16:58:55Z) - Edge of Stochastic Stability: Revisiting the Edge of Stability for SGD [0.0]
我々は,ミニバッチ勾配降下(SGD)列車が異なる体制で「エッジ・オブ・安定性(EoSS)」と呼ばれることを示す。
この体制では、2/eta$で安定化されるのは*バッチ・シャープネス* であり、これは対応する勾配に沿ったミニバッチ・ヘッセンの方向曲率である。
その結果、Batch Sharpnessよりも一般的に小さい$lambda_max$が抑制され、より小さなバッチとより大きなステップサイズがよりフラットなミニマを好むという長年の経験的な観察と一致している。
論文 参考訳(メタデータ) (2024-12-29T18:59:01Z) - Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency [47.8739414267201]
線形分離可能なデータを用いたロジスティック回帰に一定の段差を持つ勾配降下(GD)を考える。
GD はこの初期振動位相を急速に終了し、$mathcalO(eta)$ steps となり、その後$tildemathcalO (1 / (eta t) )$ convergence rate が得られることを示す。
我々の結果は、予算が$T$ ステップであれば、GD は攻撃的なステップサイズで $tildemathcalO (1/T2)$ の加速損失を達成できることを示している。
論文 参考訳(メタデータ) (2024-02-24T23:10:28Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of
Stability [40.17821914923602]
安定性の端における勾配降下は、制約$S(theta) le 2/eta$ の下で、投影勾配降下 (PGD) に暗黙的に従うことを示す。
本分析は, PGD軌道からの損失, 鋭さ, 偏差を, トレーニングを通して正確に予測する。
論文 参考訳(メタデータ) (2022-09-30T17:15:12Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。