論文の概要: Why SGD is not Brownian Motion: A New Perspective on Stochastic Dynamics
- arxiv url: http://arxiv.org/abs/2605.22644v1
- Date: Thu, 21 May 2026 15:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.331832
- Title: Why SGD is not Brownian Motion: A New Perspective on Stochastic Dynamics
- Title(参考訳): SGDがブラウン運動ではない理由 : 確率力学の新しい視点
- Authors: Igor Ignashin, Anna Radovskaya, Andrew Semenov, Egor Lopatin, Stanislav Potapov, Aleksandr Kovalenko, Andrey Veprikov, Aleksandr Shestakov, Andrey Leonidov, Aleksandr Beznosikov,
- Abstract要約: グラディエント・Descent (SGD) は通常ランゲヴィン過程としてモデル化され、ミニバッチノイズがブラウン運動として働くと仮定される。
この近似は、連続時間制限と、離散的なSGD更新を有限学習率で一致しないsqrt(eta)ノイズスケーリングに依存している。
ミニバッチサンプリングによって誘導されるゆらぎのある損失景観における決定論的力学としてのSGDの別の定式化を提案する。
- 参考スコア(独自算出の注目度): 92.39053980710702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic Gradient Descent (SGD) is commonly modeled as a Langevin process, assuming that minibatch noise acts as Brownian motion. However, this approximation relies on a continuous-time limit and a sqrt(eta) noise scaling that does not match the discrete SGD update at finite learning rate. In this work, we propose an alternative formulation of SGD as deterministic dynamics in a fluctuating loss landscape induced by minibatch sampling. Starting directly from the discrete update, we derive a master equation for the parameter distribution and obtain a discrete Fokker--Planck equation that differs from the standard Langevin form at order eta^2. Using this framework, we analyze SGD dynamics near critical points of the loss. We show that the behavior decomposes along the eigenbasis of the mean Hessian into qualitatively distinct regimes. In particular, nearly-flat directions do not admit a stationary distribution: the variance grows over time, corresponding to effective diffusion along valleys with a coefficient proportional to the learning rate. We provide empirical evidence supporting these predictions on neural network models in computer vision and natural language processing, observing a clear qualitative separation between confined and diffusive modes.
- Abstract(参考訳): Stochastic Gradient Descent (SGD) は一般にランゲヴィン過程としてモデル化され、ミニバッチノイズがブラウン運動として働くと仮定される。
しかし、この近似は連続時間制限と、離散SGD更新と有限学習率で一致しないsqrt(eta)ノイズスケーリングに依存している。
本研究では,ミニバッチサンプリングによって誘導されるゆらぎのある損失景観における決定論的ダイナミクスとして,SGDの代替的な定式化を提案する。
離散更新から直接、パラメータ分布のマスター方程式を導出し、次数 eta^2 の標準ランゲヴィン形式とは異なる離散的なフォッカー・プランク方程式を得る。
このフレームワークを用いて、損失の臨界点付近のSGDダイナミクスを解析する。
この行動は平均ヘッセンの固有基底に沿って定性的に異なる体制に分解されることを示す。
特に、ほぼ平坦な方向は定常分布を含まない: 分散は時間とともに増大し、学習速度に比例する係数で谷に沿った効果的な拡散に対応する。
コンピュータビジョンと自然言語処理におけるニューラルネットワークモデルにおけるこれらの予測を裏付ける実証的な証拠を提供し、閉じ込められたモードと拡散モードの明確な定性的分離を観察する。
関連論文リスト
- Variational Smoothing and Inference for SDEs from Sparse Data with Dynamic Neural Flows [2.9746075314244376]
本研究では, 部分的に観測された系における後方微分方程式(SDE)の平滑化手法を開発した。
我々は、支配的PDEと観察誘発ジャンプ条件の両方を満たすために訓練されたニューラルネットワークを用いて、この条件スコアを学習する。
得られたスコアは、同じ拡散係数を持つ後部SDEを誘導するが、修正されたドリフトを誘導し、効率的な後部軌道を可能にする。
論文 参考訳(メタデータ) (2026-05-07T02:47:06Z) - Stochastic Gradient Descent in the Saddle-to-Saddle Regime of Deep Linear Networks [74.46751089984072]
深い線形ネットワークにおける勾配降下(SGD)ノイズの理解は不十分である。
本研究では,サドル・アンド・サドル体制におけるDLNの訓練におけるSGDの動態について検討した。
以上の結果から,SGDノイズは特徴学習の進行に関する情報を符号化するが,サドル・アンド・サドル・ダイナミクスを根本的に変えるものではないことが判明した。
論文 参考訳(メタデータ) (2026-04-07T18:43:08Z) - Effect of Random Learning Rate: Theoretical Analysis of SGD Dynamics in Non-Convex Optimization via Stationary Distribution [5.5165579223151795]
ランダムな学習率を持つ勾配降下(SGD)の変種を考察する。
ポアソンSGDによって更新されたパラメータの分布は、弱い仮定の下で定常分布に収束することを示す。
論文 参考訳(メタデータ) (2024-06-23T06:52:33Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。