論文の概要: Edge of Stochastic Stability: Revisiting the Edge of Stability for SGD
- arxiv url: http://arxiv.org/abs/2412.20553v1
- Date: Sun, 29 Dec 2024 18:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:02:20.754825
- Title: Edge of Stochastic Stability: Revisiting the Edge of Stability for SGD
- Title(参考訳): 確率的安定性のエッジ:SGDの安定性のエッジを再考する
- Authors: Arseniy Andreyev, Pierfrancesco Beneventano,
- Abstract要約: ミニバッチ勾配勾配勾配 (SGD) の列車を, エッジ・オブ・安定性 (Edge of Stability) と呼ぶ。
この体制では、$2/eta$でホバリングされるのは、ミニバッチ(MiniBS)損失のHessianの最大の固有値のバッチの平均である。
これは、より小さなバッチやより大きな学習率でトレーニングする場合、シャープネスが一般的に低いことを意味する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent findings by Cohen et al., 2021, demonstrate that when training neural networks with full-batch gradient descent at a step size of $\eta$, the sharpness--defined as the largest eigenvalue of the full batch Hessian--consistently stabilizes at $2/\eta$. These results have significant implications for convergence and generalization. Unfortunately, this was observed not to be the case for mini-batch stochastic gradient descent (SGD), thus limiting the broader applicability of these findings. We show that SGD trains in a different regime we call Edge of Stochastic Stability. In this regime, what hovers at $2/\eta$ is, instead, the average over the batches of the largest eigenvalue of the Hessian of the mini batch (MiniBS) loss--which is always bigger than the sharpness. This implies that the sharpness is generally lower when training with smaller batches or bigger learning rate, providing a basis for the observed implicit regularization effect of SGD towards flatter minima and a number of well established empirical phenomena. Additionally, we quantify the gap between the MiniBS and the sharpness, further characterizing this distinct training regime.
- Abstract(参考訳): Cohenらによる最近の研究によると、フルバッチ勾配勾配のニューラルネットワークをステップサイズ$\eta$でトレーニングする場合、シャープネスはフルバッチのHessianの最大固有値として定義され、一貫して2/\eta$で安定化する。
これらの結果は収束と一般化に重大な影響を及ぼす。
残念なことに,SGD(Mini-batch stochastic gradient descent)は認められなかったため,より広い適用範囲が制限された。
異なる系統のSGD列車が確率安定性のエッジ(Edge of Stochastic stability)と呼ばれることを示す。
この体制では、$2/\eta$でホバリングされるのは、ミニバッチ(MiniBS)損失のHessianの最大の固有値のバッチの平均である。
このことは、より小さなバッチやより大きな学習率でのトレーニングでは、シャープネスが一般的に低くなり、より平坦なミニマへのSGDの暗黙的な正則化効果と、多くのよく確立された経験的現象の基盤となることを意味している。
さらに、MiniBSとシャープネスのギャップを定量化し、この異なるトレーニング体制をさらに特徴付ける。
関連論文リスト
- Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - (Accelerated) Noise-adaptive Stochastic Heavy-Ball Momentum [7.095058159492494]
ヘビーボール運動量(SHB)は、機械学習モデルのトレーニングに一般的に用いられ、勾配降下の反復よりも経験的な改善を提供することが多い。
SHB は小サイズが $kappa の閾値 $b* よりも大きい場合に加速できることを示す。
論文 参考訳(メタデータ) (2024-01-12T18:17:28Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - On Convergence of Incremental Gradient for Non-Convex Smooth Functions [63.51187646914962]
機械学習とネットワーク最適化では、ミスの数と優れたキャッシュを最小化するため、シャッフルSGDのようなアルゴリズムが人気である。
本稿では任意のデータ順序付けによる収束特性SGDアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2023-05-30T17:47:27Z) - Lower Generalization Bounds for GD and SGD in Smooth Stochastic Convex
Optimization [9.019243171993553]
トレーニングステップ$T$とStep-size$eta$は、滑らかな凸最適化(SCO)問題の認定に影響を与える可能性がある。
まず、グラディエントDescent(GD)とグラディエントDescent(SGD)の厳密な過剰リスク低境界を提供する。
近年の作業は、より良い速度で達成できるが、トレーニング時間が長い場合には改善が減少する。
論文 参考訳(メタデータ) (2023-03-19T20:24:33Z) - Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization [116.89941263390769]
滑らかな凸凹凸結合型サドル点問題, $min_mathbfxmax_mathbfyF(mathbfx) + H(mathbfx,mathbfy)$ を考える。
漸進的勾配指数(AG-EG)降下指数アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-06-17T06:10:20Z) - Understanding Gradient Descent on Edge of Stability in Deep Learning [32.03036040349019]
本稿では,EoS相における暗黙的正則化の新たなメカニズムを数学的に解析し,非滑らかな損失景観によるGD更新が,最小損失の多様体上の決定論的流れに沿って進化することを示した。
以上の理論的結果は実験によって裏付けられている。
論文 参考訳(メタデータ) (2022-05-19T17:57:01Z) - A Variance-Reduced Stochastic Accelerated Primal Dual Algorithm [3.2958527541557525]
このような問題は、堅牢な経験的リスク最小化という文脈で機械学習で頻繁に発生する。
高速化された原始双対 (SAPD) アルゴリズムは勾配雑音に対する頑健な手法であると考えている。
提案手法は,SAPDの実践と理論の両方において改善されていることを示す。
論文 参考訳(メタデータ) (2022-02-19T22:12:30Z) - Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。
我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。
他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文 参考訳(メタデータ) (2021-10-21T19:22:14Z) - On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。
我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文 参考訳(メタデータ) (2020-06-19T14:11:26Z) - Stability of Stochastic Gradient Descent on Nonsmooth Convex Losses [52.039438701530905]
任意のリプシッツ非平滑凸損失に対して,数種類の勾配勾配降下(SGD)に対して,鋭い上下境界を与える。
我々の限界は、極端に過剰な集団リスクを伴う、微分的にプライベートな非平滑凸最適化のための新しいアルゴリズムを導出することを可能にする。
論文 参考訳(メタデータ) (2020-06-12T02:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。