論文の概要: Training Instabilities Induce Flatness Bias in Gradient Descent
- arxiv url: http://arxiv.org/abs/2511.12558v1
- Date: Sun, 16 Nov 2025 11:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.314863
- Title: Training Instabilities Induce Flatness Bias in Gradient Descent
- Title(参考訳): 順行性老化におけるトレーニング不安定性による平坦性バイアスの誘導
- Authors: Lawrence Wang, Stephen J. Roberts,
- Abstract要約: 現代のディープネットワークは、しばしば安定性のしきい値を超える最高のパフォーマンスを達成する。
トレーニングの不安定さはGDに暗黙の偏りを生じさせ,損失景観の平坦な領域にパラメータを誘導することを示した。
また、アダムの不安定性の回復は一般化をさらに改善することを示した。
- 参考スコア(独自算出の注目度): 6.628332915214955
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Classical analyses of gradient descent (GD) define a stability threshold based on the largest eigenvalue of the loss Hessian, often termed sharpness. When the learning rate lies below this threshold, training is stable and the loss decreases monotonically. Yet, modern deep networks often achieve their best performance beyond this regime. We demonstrate that such instabilities induce an implicit bias in GD, driving parameters toward flatter regions of the loss landscape and thereby improving generalization. The key mechanism is the Rotational Polarity of Eigenvectors (RPE), a geometric phenomenon in which the leading eigenvectors of the Hessian rotate during training instabilities. These rotations, which increase with learning rates, promote exploration and provably lead to flatter minima. This theoretical framework extends to stochastic GD, where instability-driven flattening persists and its empirical effects outweigh minibatch noise. Finally, we show that restoring instabilities in Adam further improves generalization. Together, these results establish and understand the constructive role of training instabilities in deep learning.
- Abstract(参考訳): 勾配降下(GD)の古典的な解析は、損失ヘッセンの最大の固有値に基づいて安定しきい値を定義し、しばしば鋭さと呼ばれる。
学習率がこの閾値を下回ると、トレーニングは安定し、損失は単調に減少する。
しかし、現代のディープネットワークは、しばしばこの体制を超えて最高のパフォーマンスを達成している。
このような不安定性はGDの暗黙のバイアスを生じさせ、損失景観の平坦な領域へパラメータを誘導し、一般化を改善することを実証する。
鍵となるメカニズムは固有ベクトルの回転極性(RPE)である。
これらの回転は、学習率の増加とともに増加し、探索を促進し、確実により平坦なミニマムに繋がる。
この理論の枠組みは確率的GDにまで拡張され、不安定駆動型平坦化は持続し、その経験的効果はミニバッチノイズよりも大きい。
最後に、Adamにおける復元不安定性は一般化をさらに改善することを示す。
これらの結果は、ディープラーニングにおけるトレーニング不安定性の構築的役割を確立し、理解するものである。
関連論文リスト
- Can Stability be Detrimental? Better Generalization through Gradient Descent Instabilities [14.741581246137404]
本研究では,大きな学習率によって引き起こされる不安定さが,損失景観の平坦な領域へモデルパラメータを移動させることを示す。
最新のベンチマークデータセットでは,これらが優れた一般化性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2024-12-23T14:32:53Z) - Momentum Does Not Reduce Stochastic Noise in Stochastic Gradient Descent [0.6906005491572401]
ニューラルディープネットワークでは、運動量を持つ勾配降下(SGD)は、運動量を持たないSGDよりも速く収束し、より一般化できると言われている。
特に、運動量を加えることでこのバッチノイズが減少すると考えられている。
探索方向と最急降下方向の誤差として定義される雑音である探索方向雑音の効果を解析した。
論文 参考訳(メタデータ) (2024-02-04T02:48:28Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z) - On a continuous time model of gradient descent dynamics and instability
in deep learning [12.20253214080485]
そこで本研究では,勾配降下力学を近似した連続時間流として主流れ(PF)を提案する。
PFは、ディープラーニングにおいて最近観測された安定性現象の端に光を放つ。
不安定性に対する新たな理解を用いて,トレーニング安定性とテストセット評価性能のトレードオフを制御できる学習率適応法を提案する。
論文 参考訳(メタデータ) (2023-02-03T19:03:10Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。