Fugu-MT 論文翻訳(概要): Stochastic Gradient Descent in the Saddle-to-Saddle Regime of Deep Linear Networks

論文の概要: Stochastic Gradient Descent in the Saddle-to-Saddle Regime of Deep Linear Networks

arxiv url: http://arxiv.org/abs/2604.06366v1
Date: Tue, 07 Apr 2026 18:43:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-09 17:30:51.187493
Title: Stochastic Gradient Descent in the Saddle-to-Saddle Regime of Deep Linear Networks
Title（参考訳）: ディープリニアネットワークのサドル・ツー・サドルレジームにおける確率的グラディエントDescence
Authors: Guillaume Corlouer, Avi Semler, Alexander Strang, Alexander Gietelink Oldenziel,
Abstract要約: 深い線形ネットワークにおける勾配降下(SGD)ノイズの理解は不十分である。本研究では,サドル・アンド・サドル体制におけるDLNの訓練におけるSGDの動態について検討した。以上の結果から,SGDノイズは特徴学習の進行に関する情報を符号化するが,サドル・アンド・サドル・ダイナミクスを根本的に変えるものではないことが判明した。
参考スコア（独自算出の注目度）: 74.46751089984072
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep linear networks (DLNs) are used as an analytically tractable model of the training dynamics of deep neural networks. While gradient descent in DLNs is known to exhibit saddle-to-saddle dynamics, the impact of stochastic gradient descent (SGD) noise on this regime remains poorly understood. We investigate the dynamics of SGD during training of DLNs in the saddle-to-saddle regime. We model the training dynamics as stochastic Langevin dynamics with anisotropic, state-dependent noise. Under the assumption of aligned and balanced weights, we derive an exact decomposition of the dynamics into a system of one-dimensional per-mode stochastic differential equations. This establishes that the maximal diffusion along a mode precedes the corresponding feature being completely learned. We also derive the stationary distribution of SGD for each mode: in the absence of label noise, its marginal distribution along specific features coincides with the stationary distribution of gradient flow, while in the presence of label noise it approximates a Boltzmann distribution. Finally, we confirm experimentally that the theoretical results hold qualitatively even without aligned or balanced weights. These results establish that SGD noise encodes information about the progression of feature learning but does not fundamentally alter the saddle-to-saddle dynamics.
Abstract（参考訳）: ディープ・リニア・ネットワーク(DLN)は、ディープ・ニューラルネットワークのトレーニング・ダイナミクスを解析的に抽出可能なモデルとして用いられる。 DLNの勾配降下はサドル・アンド・サドル力学を示すことが知られているが, 確率勾配降下(SGD)ノイズの影響はいまだよく分かっていない。本研究では,サドル・アンド・サドル体制におけるDLNの訓練におけるSGDの動態について検討した。我々は、学習力学を、異方性、状態依存ノイズを伴う確率的ランゲヴィン力学としてモデル化する。整列重みと平衡重みの仮定の下で、力学を1次元の1モード確率微分方程式系に正確に分解する。このことは、モードに沿った最大拡散が、対応する特徴が完全に学習されるのに先行することを証明している。また,各モードに対するSGDの定常分布を導出する。ラベルノイズが存在しない場合,その限界分布は勾配流の定常分布と一致し,ラベルノイズの存在下でボルツマン分布に近似する。最後に,理論結果が整列やバランスの取れた重みを伴わずに定性的に保たれることを実験的に確認した。これらの結果から,SGDノイズは特徴学習の進行に関する情報を符号化するが,サドル・アンド・サドル・ダイナミクスを根本的に変えるものではないことが確認された。

関連論文リスト

On the Learning Dynamics of Two-layer Linear Networks with Label Noise SGD [93.70725920710208]
ラベル雑音による勾配降下の学習力学について検討する。遅延からリッチな体制への移行を駆動する上で,ラベルノイズが重要な役割を担っていることを強調する。これらの知見をSAM(Sharpness-Aware Minimization)に拡張し、ラベルノイズSGDを規定する原理がより広範な最適化アルゴリズムにも適用可能であることを示す。
論文参考訳（メタデータ） (2026-03-11T04:26:54Z)
Momentum Does Not Reduce Stochastic Noise in Stochastic Gradient Descent [0.6906005491572401]
ニューラルディープネットワークでは、運動量を持つ勾配降下(SGD)は、運動量を持たないSGDよりも速く収束し、より一般化できると言われている。特に、運動量を加えることでこのバッチノイズが減少すると考えられている。探索方向と最急降下方向の誤差として定義される雑音である探索方向雑音の効果を解析した。
論文参考訳（メタデータ） (2024-02-04T02:48:28Z)
Noise Balance and Stationary Distribution of Stochastic Gradient Descent [10.621129623557884]
損失関数が再スケーリングパラメータ対称性を含む場合, SGD のミニバッチノイズは, 雑音平衡解に対する解を正則化することを示す。単純な拡散過程とSGD力学の違いは対称性が存在するときに最も重要であるため、この理論は損失関数対称性がSGDの働きの本質的なプローブとなることを示唆している。この結果を用いて,任意の深さと幅を持つ対角線ネットワークにおける勾配流の定常分布を導出する。
論文参考訳（メタデータ） (2023-08-13T03:13:03Z)
Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文参考訳（メタデータ） (2023-06-06T09:12:49Z)
Doubly Stochastic Models: Learning with Unbiased Label Noises and Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文参考訳（メタデータ） (2023-04-01T14:09:07Z)
The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations, and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文参考訳（メタデータ） (2021-07-19T20:18:57Z)
Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文参考訳（メタデータ） (2021-02-13T21:28:09Z)
Training Generative Adversarial Networks by Solving Ordinary Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文参考訳（メタデータ） (2020-10-28T15:23:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。