論文の概要: Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of
Stability
- arxiv url: http://arxiv.org/abs/2209.15594v1
- Date: Fri, 30 Sep 2022 17:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:14:31.983247
- Title: Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of
Stability
- Title(参考訳): 自己安定化:安定の端におけるグラディエント輝きの差し迫ったバイアス
- Authors: Alex Damian, Eshaan Nichani, Jason D. Lee
- Abstract要約: 安定性の端における勾配降下は、制約$S(theta) le 2/eta$ の下で、投影勾配降下 (PGD) に暗黙的に従うことを示す。
本分析は, PGD軌道からの損失, 鋭さ, 偏差を, トレーニングを通して正確に予測する。
- 参考スコア(独自算出の注目度): 40.17821914923602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional analyses of gradient descent show that when the largest
eigenvalue of the Hessian, also known as the sharpness $S(\theta)$, is bounded
by $2/\eta$, training is "stable" and the training loss decreases
monotonically. Recent works, however, have observed that this assumption does
not hold when training modern neural networks with full batch or large batch
gradient descent. Most recently, Cohen et al. (2021) observed two important
phenomena. The first, dubbed progressive sharpening, is that the sharpness
steadily increases throughout training until it reaches the instability cutoff
$2/\eta$. The second, dubbed edge of stability, is that the sharpness hovers at
$2/\eta$ for the remainder of training while the loss continues decreasing,
albeit non-monotonically.
We demonstrate that, far from being chaotic, the dynamics of gradient descent
at the edge of stability can be captured by a cubic Taylor expansion: as the
iterates diverge in direction of the top eigenvector of the Hessian due to
instability, the cubic term in the local Taylor expansion of the loss function
causes the curvature to decrease until stability is restored. This property,
which we call self-stabilization, is a general property of gradient descent and
explains its behavior at the edge of stability. A key consequence of
self-stabilization is that gradient descent at the edge of stability implicitly
follows projected gradient descent (PGD) under the constraint $S(\theta) \le
2/\eta$. Our analysis provides precise predictions for the loss, sharpness, and
deviation from the PGD trajectory throughout training, which we verify both
empirically in a number of standard settings and theoretically under mild
conditions. Our analysis uncovers the mechanism for gradient descent's implicit
bias towards stability.
- Abstract(参考訳): 勾配降下の伝統的な分析によれば、ヘッセンの最大固有値(シャープネス $s(\theta)$)が2/\eta$で境界付けられたとき、トレーニングは「安定」であり、トレーニング損失は単調に減少する。
しかし、最近の研究で、この仮定は、完全バッチまたは大規模なバッチ勾配勾配で現代的なニューラルネットワークをトレーニングする際には成立しない。
最近では Cohen et al. (2021) が2つの重要な現象を観測している。
第一はプログレッシブ・シャープニング(progressive sharpening)と呼ばれ、トレーニング中、不安定なカットオフに達するまで鋭さは着実に増加する。
第二に、安定性の端と呼ばれるシャープネスは、トレーニングの残り期間は2/\eta$でホバリングするが、損失は減少し続けている。
不安定性からHessianの上固有ベクトル方向の反復が分岐するにつれて、損失関数の局所テイラー展開における立方項は、安定性が回復するまで曲率を減少させる。
この性質は自己安定化と呼ばれ、勾配降下の一般的な性質であり、安定性の端での挙動を説明する。
自己安定化の鍵となる結果として、安定性の端における勾配降下は、制約 $S(\theta) \le 2/\eta$ の下で、暗黙的に射影勾配降下 (PGD) に従う。
本分析は, PGD軌道の損失, 鋭さ, 偏差を, 訓練を通して正確に予測し, 多くの標準条件および理論上は温和条件下で実証的に検証する。
本解析は,勾配降下の安定性に対する暗黙のバイアスのメカニズムを明らかにする。
関連論文リスト
- High dimensional analysis reveals conservative sharpening and a stochastic edge of stability [21.12433806766051]
トレーニング損失Hessianの大きな固有値のダイナミクスは,モデル間およびバッチ全体において極めて堅牢な特徴を持っていることを示す。
しばしば、大きな固有値が増加するプログレッシブ・シャープニングの初期段階があり、続いて安定性の端として知られる予測可能な値での安定化が続く。
論文 参考訳(メタデータ) (2024-04-30T04:54:15Z) - Sharpness-Aware Minimization and the Edge of Stability [35.27697224229969]
勾配降下(GD)をステップサイズ$eta$でトレーニングすると、損失のHessianのノルムが約2/eta$に達するまで増加し、その後この値に変動することを示す。
我々は、Sharpness-Aware Minimization (SAM) の「安定性の端」に到達するための同様の計算を行う。
GDの場合とは異なり、SAM-edgeの結果は勾配のノルムに依存する。3つのディープラーニングトレーニングタスクを用いて、SAMは、この分析によって同定された安定性の端で動作していることを実証的に確認する。
論文 参考訳(メタデータ) (2023-09-21T21:15:51Z) - Estimator Meets Equilibrium Perspective: A Rectified Straight Through
Estimator for Binary Neural Networks Training [35.090598013305275]
ニューラルネットワークのバイナリ化は、ニューラルネットワーク圧縮において支配的なパラダイムである。
本稿では,推定誤差と勾配安定性のバランスをとるために,ReSTE(Rectified Straight Through Estimator)を提案する。
ReSTEは優れたパフォーマンスを持ち、補助モジュールや損失を伴わずに最先端のメソッドを超える。
論文 参考訳(メタデータ) (2023-08-13T05:38:47Z) - The Implicit Regularization of Dynamical Stability in Stochastic
Gradient Descent [32.25490196411385]
動的安定レンズによる勾配降下(SGD)の暗黙的正則化について検討する。
2層ReLUネットワークと対角線ネットワークの一般化特性を解析する。
論文 参考訳(メタデータ) (2023-05-27T14:54:21Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Understanding the unstable convergence of gradient descent [51.40523554349091]
機械学習アプリケーションでは、ステップサイズが$L$-smoothコストの場合、ステップサイズは2/L$未満である、という条件を満たさないことが多い。
我々は、この不安定収束現象を第一原理から検討し、その背景にある主要な原因を解明する。
我々はまた、その主な特徴とそれらの相互関係を識別し、理論と実験の両方に裏打ちされた透明なビューを提供する。
論文 参考訳(メタデータ) (2022-04-03T11:10:17Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。