論文の概要: High-Dimensional Limit of Stochastic Gradient Flow via Dynamical Mean-Field Theory
- arxiv url: http://arxiv.org/abs/2602.06320v1
- Date: Fri, 06 Feb 2026 02:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.192967
- Title: High-Dimensional Limit of Stochastic Gradient Flow via Dynamical Mean-Field Theory
- Title(参考訳): 動的平均場理論による確率勾配流れの高次元限界
- Authors: Sota Nishiyama, Masaaki Imaizumi,
- Abstract要約: 現代の機械学習モデルは、通常、バッチサイズが小さいマルチパス勾配勾配(SGD)によって訓練される。
我々は、Emphstochastic gradient flow (SGF)と呼ばれる微分方程式の高次元力学を解析する。
DMFT方程式は,SGD力学の既存の高次元記述を特殊ケースとして復元することを示した。
- 参考スコア(独自算出の注目度): 6.2000582635449994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern machine learning models are typically trained via multi-pass stochastic gradient descent (SGD) with small batch sizes, and understanding their dynamics in high dimensions is of great interest. However, an analytical framework for describing the high-dimensional asymptotic behavior of multi-pass SGD with small batch sizes for nonlinear models is currently missing. In this study, we address this gap by analyzing the high-dimensional dynamics of a stochastic differential equation called a \emph{stochastic gradient flow} (SGF), which approximates multi-pass SGD in this regime. In the limit where the number of data samples $n$ and the dimension $d$ grow proportionally, we derive a closed system of low-dimensional and continuous-time equations and prove that it characterizes the asymptotic distribution of the SGF parameters. Our theory is based on the dynamical mean-field theory (DMFT) and is applicable to a wide range of models encompassing generalized linear models and two-layer neural networks. We further show that the resulting DMFT equations recover several existing high-dimensional descriptions of SGD dynamics as special cases, thereby providing a unifying perspective on prior frameworks such as online SGD and high-dimensional linear regression. Our proof builds on the existing DMFT technique for gradient flow and extends it to handle the stochasticity in SGF using tools from stochastic calculus.
- Abstract(参考訳): 現代の機械学習モデルは典型的には、バッチサイズが小さいマルチパス確率勾配勾配勾配(SGD)を用いて訓練され、そのダイナミクスを高次元で理解することが非常に興味深い。
しかし、非線形モデルのバッチサイズが小さいマルチパスSGDの高次元漸近挙動を記述するための分析的枠組みが現在欠けている。
本研究では,この状態におけるマルチパスSGDを近似した,確率微分方程式の高次元的ダイナミクスをSGF (Shaemph{stochastic gradient flow}) を用いて解析することによって,このギャップを解消する。
データサンプル数$n$と次元$d$が比例的に増加する極限において、低次元および連続時間方程式の閉系を導出し、SGFパラメータの漸近分布を特徴付けることを証明する。
我々の理論は力学平均場理論(DMFT)に基づいており、一般化線形モデルと2層ニューラルネットワークを含む幅広いモデルに適用可能である。
さらに,オンラインSGDや高次元線形回帰といった従来のフレームワークに対する統一的な視点を提供するため,既存のSGD力学の高次元記述を特殊ケースとして復元する。
提案手法は, SGF の確率性を扱うために, 従来の DMFT 法を基礎として, 確率計算のツールを用いて拡張するものである。
関連論文リスト
- High-dimensional learning dynamics of multi-pass Stochastic Gradient Descent in multi-index models [2.2129910930772]
経験的リスク最小化のためのマルチパス・ミニバッチ・グラディエント・Descent (SGD) 手順の学習力学について検討した。
サンプルサイズ$n$とデータディメンション$d$が比例的に増加する制限条件では、サブ線形バッチサイズ$asymp n where $in [0, 1)$に対して、SGDの座標ワイドダイナミクスを正確に評価する。
論文 参考訳(メタデータ) (2026-01-28T22:28:12Z) - Disordered Dynamics in High Dimensions: Connections to Random Matrices and Machine Learning [52.26396748560348]
ランダム行列によって駆動される高次元力学系について概説する。
機械学習理論における学習と一般化の単純なモデルへの応用に焦点を当てる。
論文 参考訳(メタデータ) (2026-01-03T00:12:32Z) - Exact Dynamics of Multi-class Stochastic Gradient Descent [4.1538344141902135]
ワンパス勾配勾配法(SGD)を用いて学習した多種多様な高次元最適化問題の学習・学習速度ダイナミクスを解析するためのフレームワークを開発する。
我々は、ODEのシステムに対する決定論的解という観点から、リスクや真の信号との重なり合いを含む、制限力学の関数の大規模なクラスに対して、正確な表現を与える。
論文 参考訳(メタデータ) (2025-10-15T20:31:49Z) - Hitting the High-Dimensional Notes: An ODE for SGD learning dynamics on
GLMs and multi-index models [10.781866671930857]
高次元限界におけるストリーミング勾配降下(SGD)のダイナミクスを解析する。
我々は、通常の微分方程式の体系の形で、SGDの決定論的等価性を実証する。
決定論的等価性に加えて、単純化された拡散係数を持つSDEを導入する。
論文 参考訳(メタデータ) (2023-08-17T13:33:02Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - From high-dimensional & mean-field dynamics to dimensionless ODEs: A
unifying approach to SGD in two-layers networks [26.65398696336828]
本書はガウスデータとラベルに基づいて訓練された2層ニューラルネットワークの1パス勾配降下(SGD)ダイナミクスについて検討する。
我々は、人口リスクに関する十分な統計量の観点から、決定論的かつ低次元の記述を通じて、制限力学を厳格に分析する。
論文 参考訳(メタデータ) (2023-02-12T09:50:52Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。