論文の概要: Transient learning dynamics drive escape from sharp valleys in Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2601.10962v1
- Date: Fri, 16 Jan 2026 03:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.344668
- Title: Transient learning dynamics drive escape from sharp valleys in Stochastic Gradient Descent
- Title(参考訳): 過渡学習ダイナミクスは確率勾配の急激な谷からの脱出を促進する
- Authors: Ning Yang, Yikuan Zhang, Qi Ouyang, Chao Tang, Yuhai Tu,
- Abstract要約: 勾配降下(SGD)は深層学習の中心であるが、より平坦でより一般化可能な解が好まれる起源はいまだ不明である。
解選択を規定する非平衡機構を同定する。
SGDノイズは,平らな解を好む効果的なポテンシャルにランドスケープを想起させることを示す。
- 参考スコア(独自算出の注目度): 8.338308750427682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) is central to deep learning, yet the dynamical origin of its preference for flatter, more generalizable solutions remains unclear. Here, by analyzing SGD learning dynamics, we identify a nonequilibrium mechanism governing solution selection. Numerical experiments reveal a transient exploratory phase in which SGD trajectories repeatedly escape sharp valleys and transition toward flatter regions of the loss landscape. By using a tractable physical model, we show that the SGD noise reshapes the landscape into an effective potential that favors flat solutions. Crucially, we uncover a transient freezing mechanism: as training proceeds, growing energy barriers suppress inter-valley transitions and ultimately trap the dynamics within a single basin. Increasing the SGD noise strength delays this freezing, which enhances convergence to flatter minima. Together, these results provide a unified physical framework linking learning dynamics, loss-landscape geometry, and generalization, and suggest principles for the design of more effective optimization algorithms.
- Abstract(参考訳): 確率勾配降下(SGD)は深層学習の中心であるが、より平坦でより一般化可能な解に対する選好の動的起源はいまだ不明である。
ここでは、SGD学習力学を解析することにより、解選択を規定する非平衡メカニズムを同定する。
数値実験により、SGD軌道が鋭い谷から繰り返し脱出し、失われた地形の平坦な地域へ遷移する過渡的な探索段階が明らかとなった。
誘引可能な物理モデルを用いて、SGDノイズが平らな解を好む効果的なポテンシャルにランドスケープを想起させることを示す。
トレーニングが進むにつれて、エネルギー障壁の増大によって谷間遷移が抑制され、最終的には1つの盆地内でのダイナミクスをトラップする。
SGDノイズ強度の増大は、この凍結を遅らせ、より平坦なミニマへの収束を高める。
これらの結果は、学習力学、損失ランドスケープ幾何学、一般化を結合する統一的な物理フレームワークを提供し、より効率的な最適化アルゴリズムの設計のための原則を提案する。
関連論文リスト
- Dynamic Decoupling of Placid Terminal Attractor-based Gradient Descent Algorithm [56.06235614890066]
勾配降下(GD)と勾配降下(SGD)は多くのアプリケーションドメインで広く使われている。
本稿では, 勾配流の異なる段階における終端アトラクタに基づくGDのダイナミクスを慎重に解析する。
論文 参考訳(メタデータ) (2024-09-10T14:15:56Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Stochastic gradient descent introduces an effective landscape-dependent
regularization favoring flat solutions [5.022507593837554]
一般化はディープラーニング(DL)における最も重要な問題の1つである
トレーニングデータに等しく適合する低損失のソリューションは数多く存在する。
鍵となる問題は、どの解がより一般化可能であるかである。
論文 参考訳(メタデータ) (2022-06-02T18:49:36Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z) - How neural networks find generalizable solutions: Self-tuned annealing
in deep learning [7.372592187197655]
すべてのSGD学習アルゴリズムに対して,重み分散とランドスケープ平坦度との間には,頑健な逆関係が認められる。
本研究は,SGDが,地形の平らなミニマで一般化可能な解を見つけるために,自己調整型ランドスケープ依存型アニーリング戦略を実現することを示唆している。
論文 参考訳(メタデータ) (2020-01-06T17:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。