論文の概要: Gradient descent at the Edge of Stability: free energy model and kinetic description of the two-layer network
- arxiv url: http://arxiv.org/abs/2606.05326v1
- Date: Wed, 03 Jun 2026 18:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.332981
- Title: Gradient descent at the Edge of Stability: free energy model and kinetic description of the two-layer network
- Title(参考訳): 安定の端における勾配降下-自由エネルギーモデルと二層ネットワークの運動論的記述-
- Authors: Antonin Chodron de Courcel,
- Abstract要約: 安定状態のエッジにおける勾配降下のダイナミクスについて検討する。
平均軌道の進化を追跡する連続時間有効モデルを提案する。
この方程式は、マクロ自由エネルギーのワッサーシュタイン2勾配流と解釈できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the dynamics of gradient descent in the Edge of Stability regime, where the learning rate is large enough to induce persistent oscillations in the loss and the sharpness. We propose a continuous-time effective model that tracks the evolution of the average trajectory coupled with the time-averaged covariance of its fast oscillations. Our analysis reveals that the natural quantity to monitor in such unstable regimes is an effective free energy, which combines the original risk functional with a curvature-related "entropic" term. Our model allows us to track the envelope of the oscillations even in situations where its dynamics evolve on similar timescales as the averaged weights. Otherwise stated, we can track the spikes that occur during the training of some neural network architectures. For wide two-layer neural networks optimized under stable non-vanishing oscillations, we derive a mean-field limit that results in a novel kinetic equation describing the joint distribution of weights and their fluctuations. We show that this equation can be interpreted as a Wasserstein-2 gradient flow of a macroscopic free energy. Finally, we provide numerical evidence on matrix factorization and deep learning tasks (CIFAR-10) to demonstrate the model's accuracy in capturing the envelope of the oscillations and the predictive power of the effective free energy.
- Abstract(参考訳): 本研究では, 学習速度が十分に大きく, 損失や鋭さの持続的な振動を誘発できる, 安定状態のエッジにおける勾配降下のダイナミクスについて検討する。
本研究では,その高速振動の時間平均共分散と組み合わさって,平均軌道の進化を追跡する連続時間有効モデルを提案する。
解析の結果,このような不安定な状態下での監視に要する自然量は,元のリスク関数と曲率関連「エントロピー」項を組み合わせた有効自由エネルギーであることが判明した。
我々のモデルでは、平均重量と同じ時間スケールでダイナミクスが進化する状況でも振動のエンベロープを追跡することができる。
そうでなければ、ニューラルネットワークアーキテクチャのトレーニング中に発生するスパイクを追跡することができます。
安定な非消滅振動の下で最適化された広帯域2層ニューラルネットワークに対して、重みの結合分布とその変動を記述する新しい運動方程式を導出する平均場限界を導出する。
この方程式は、マクロ自由エネルギーのワッサーシュタイン2勾配流と解釈できる。
最後に,行列分解および深層学習タスク(CIFAR-10)に関する数値的な証拠を提示し,振動の包絡と有効自由エネルギーの予測力を捉える際のモデルの精度を実証する。
関連論文リスト
- Detecting Deepfakes via Hamiltonian Dynamics [58.881686693914446]
本稿では,静的パターン認識から動的安定性解析へ移行するディープフェイク検出の新しい視点を提案する。
私たちのアプローチは、物理学にインスパイアされた先駆者によって動機付けられています。
Hamiltonian Action Anomaly Detection (HAAD) は、最先端のベースラインの評価に優れる。
論文 参考訳(メタデータ) (2026-05-06T01:55:38Z) - Stochastic Gradient Descent in the Saddle-to-Saddle Regime of Deep Linear Networks [74.46751089984072]
深い線形ネットワークにおける勾配降下(SGD)ノイズの理解は不十分である。
本研究では,サドル・アンド・サドル体制におけるDLNの訓練におけるSGDの動態について検討した。
以上の結果から,SGDノイズは特徴学習の進行に関する情報を符号化するが,サドル・アンド・サドル・ダイナミクスを根本的に変えるものではないことが判明した。
論文 参考訳(メタデータ) (2026-04-07T18:43:08Z) - Non-Equilibrium Stochastic Dynamics as a Unified Framework for Insight and Repetitive Learning: A Kramers Escape Approach to Continual Learning [0.0]
ニューラルネットワークにおける連続学習は、安定性-塑性ジレンマによって根本的に制限される。
両問題が非平衡統計物理学における共通解であることを示す。
論文 参考訳(メタデータ) (2026-04-05T15:42:23Z) - Identifiable learning of dissipative dynamics [25.409059056398124]
I-OnsagerNetは、散逸ダイナミクスを直接トラジェクトリから学習するニューラルネットワークフレームワークである。
I-OnsagerNetはOnsagerの原理を拡張して、学習されたポテンシャルが定常密度から得られることを保証している。
このアプローチはエントロピーの生成を計算し、不可逆性を定量化し、平衡から逸脱を検出し定量化する原則的な方法を提供する。
論文 参考訳(メタデータ) (2025-10-28T07:57:14Z) - Langevin Flows for Modeling Neural Latent Dynamics [81.81271685018284]
逐次変分自動エンコーダであるLangevinFlowを導入し、潜伏変数の時間的進化をアンダーダム化したLangevin方程式で制御する。
われわれのアプローチは、慣性、減衰、学習されたポテンシャル関数、力などの物理的事前を組み込んで、ニューラルネットワークにおける自律的および非自律的プロセスの両方を表現する。
本手法は,ロレンツ誘引器によって生成される合成神経集団に対する最先端のベースラインより優れる。
論文 参考訳(メタデータ) (2025-07-15T17:57:48Z) - An optimization-based equilibrium measure describes non-equilibrium steady state dynamics: application to edge of chaos [2.5690340428649328]
神経力学を理解することは、機械学習、非線形物理学、神経科学において中心的なトピックである。
力学は非線形であり、特に非勾配、すなわち駆動力はポテンシャルの勾配として書けない。
論文 参考訳(メタデータ) (2024-01-18T14:25:32Z) - Slow semiclassical dynamics of a two-dimensional Hubbard model in
disorder-free potentials [77.34726150561087]
調和およびスピン依存線形ポテンシャルの導入は、fTWAを長期間にわたって十分に検証することを示した。
特に、有限2次元系に着目し、中間線形ポテンシャル強度において、高調波ポテンシャルの追加と傾きのスピン依存が、亜拡散力学をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-03T16:51:25Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Assessment of weak-coupling approximations on a driven two-level system
under dissipation [58.720142291102135]
我々は, 減散を伴うリウヴィル・ヴォン方程式(Liouville-von equation)と呼ばれる数値的正確かつ非摂動的手法を用いて, 駆動量子ビットについて検討した。
我々は、駆動された量子ビットの定常状態を予測する上で、リンドブラッド方程式の妥当性の規則をマップするために実験で用いられる計量を提案する。
論文 参考訳(メタデータ) (2020-11-11T22:45:57Z) - Feedback-induced instabilities and dynamics in the Jaynes-Cummings model [62.997667081978825]
時間遅延コヒーレントフィードバックを受けるJaynes-Cummingsモデルのコヒーレンスと定常状態特性について検討する。
導入されたフィードバックは、システムの動的応答と定常量子特性を質的に修正する。
論文 参考訳(メタデータ) (2020-06-20T10:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。