論文の概要: Edge of Stochastic Stability: Revisiting the Edge of Stability for SGD
- arxiv url: http://arxiv.org/abs/2412.20553v2
- Date: Fri, 31 Jan 2025 15:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:59:32.458703
- Title: Edge of Stochastic Stability: Revisiting the Edge of Stability for SGD
- Title(参考訳): 確率的安定性のエッジ:SGDの安定性のエッジを再考する
- Authors: Arseniy Andreyev, Pierfrancesco Beneventano,
- Abstract要約: 我々は,ミニバッチ勾配降下(SGD)列車が異なる体制で「エッジ・オブ・安定性(EoSS)」と呼ばれることを示す。
2/eta$で安定化されるのは *Batch Sharpness* である。
さらに,SGD軌道の数学的モデリングについて考察する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent findings by Cohen et al., 2021, demonstrate that when training neural networks with full-batch gradient descent with a step size of $\eta$, the largest eigenvalue $\lambda_{\max}$ of the full-batch Hessian consistently stabilizes at $\lambda_{\max} = 2/\eta$. These results have significant implications for convergence and generalization. This, however, is not the case of mini-batch stochastic gradient descent (SGD), limiting the broader applicability of its consequences. We show that SGD trains in a different regime we term Edge of Stochastic Stability (EoSS). In this regime, what stabilizes at $2/\eta$ is *Batch Sharpness*: the expected directional curvature of mini-batch Hessians along their corresponding stochastic gradients. As a consequence $\lambda_{\max}$--which is generally smaller than Batch Sharpness--is suppressed, aligning with the long-standing empirical observation that smaller batches and larger step sizes favor flatter minima. We further discuss implications for mathematical modeling of SGD trajectories.
- Abstract(参考訳): Cohen et al , 2021 による最近の発見は、フルバッチ勾配勾配のニューラルネットワークを、ステップサイズ $\eta$ でトレーニングする場合、最大固有値 $\lambda_{\max}$ が $\lambda_{\max} = 2/\eta$ で一貫して安定化することを示した。
これらの結果は収束と一般化に重大な影響を及ぼす。
しかし、これはミニバッチ確率勾配降下(SGD)の場合ではなく、その結果の広範な適用性を制限する。
我々は,SGD列車が異なる体制で「エッジ・オブ・確率安定性 (Edge of Stochastic stability, EoSS)」と呼ばれることを示す。
この状態において、 2/\eta$ で安定化されるものは * Batch Sharpness* である。
その結果、Batch Sharpnessよりも一般的に小さい$\lambda_{\max}$-が抑制され、より小さなバッチとより大きなステップサイズがよりフラットなミニマを好むという長年の経験的な観察と一致している。
さらに,SGD軌道の数学的モデリングについて考察する。
関連論文リスト
- Sharpness-Aware Minimization and the Edge of Stability [35.27697224229969]
勾配降下(GD)をステップサイズ$eta$でトレーニングすると、損失のHessianのノルムが約2/eta$に達するまで増加し、その後この値に変動することを示す。
我々は、Sharpness-Aware Minimization (SAM) の「安定性の端」に到達するための同様の計算を行う。
GDの場合とは異なり、SAM-edgeの結果は勾配のノルムに依存する。3つのディープラーニングトレーニングタスクを用いて、SAMは、この分析によって同定された安定性の端で動作していることを実証的に確認する。
論文 参考訳(メタデータ) (2023-09-21T21:15:51Z) - The Effect of SGD Batch Size on Autoencoder Learning: Sparsity,
Sharpness, and Feature Learning [14.004531386769328]
単一ニューロンオートエンコーダを用いた場合の勾配降下(SGD)のダイナミクスについて検討する。
サンプル数より小さいバッチサイズの場合、SGDは、そのランダム性にほぼ厳密で疎い、大域的な最小値を見つける。
論文 参考訳(メタデータ) (2023-08-06T21:54:07Z) - Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of
Stability [40.17821914923602]
安定性の端における勾配降下は、制約$S(theta) le 2/eta$ の下で、投影勾配降下 (PGD) に暗黙的に従うことを示す。
本分析は, PGD軌道からの損失, 鋭さ, 偏差を, トレーニングを通して正確に予測する。
論文 参考訳(メタデータ) (2022-09-30T17:15:12Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - Label Noise SGD Provably Prefers Flat Global Minimizers [48.883469271546076]
過度パラメータ化モデルでは、勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。
ラベルノイズを持つSGDが正規化損失$L(theta) +lambda R(theta)$の定常点に収束することを示す。
解析の結果,線形スケーリング法則を超越した大規模学習率の正規化効果が明らかとなった。
論文 参考訳(メタデータ) (2021-06-11T17:59:07Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z) - On the Origin of Implicit Regularization in Stochastic Gradient Descent [22.802683068658897]
勾配降下(SGD)は全バッチ損失関数上の勾配流の経路に従う。
ランダムシャッフルを伴うSGDの場合、学習速度が小さく有限であれば、平均SGDは勾配流の経路に近づいたままである。
損失に暗黙の正則化器を明示的に含めれば、学習率が小さい場合にテスト精度が向上することを確認した。
論文 参考訳(メタデータ) (2021-01-28T18:32:14Z) - BN-invariant sharpness regularizes the training model to better
generalization [72.97766238317081]
BN下等価ネットワークに対して一貫した値を与えるシャープネス測定法BN-Sharpnessを提案する。
我々はBNシャープネスを用いてトレーニングを正規化し、アルゴリズムを設計し、新しい正規化対象を最小化する。
論文 参考訳(メタデータ) (2021-01-08T10:23:24Z) - On the Generalization Benefit of Noise in Stochastic Gradient Descent [34.127525925676416]
ディープニューラルネットワークにおけるバッチ勾配勾配よりも、ミニバッチ勾配勾配がより一般化できるという主張は、長年にわたって議論されてきた。
小さいバッチサイズや中程度のバッチサイズは、テストセットにおいて非常に大きなバッチよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-06-26T16:18:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。