論文の概要: High-dimensional learning dynamics of multi-pass Stochastic Gradient Descent in multi-index models
- arxiv url: http://arxiv.org/abs/2601.21093v1
- Date: Wed, 28 Jan 2026 22:28:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.46493
- Title: High-dimensional learning dynamics of multi-pass Stochastic Gradient Descent in multi-index models
- Title(参考訳): 多次元インデクスモデルにおけるマルチパス確率勾配の高次元学習ダイナミクス
- Authors: Zhou Fan, Leda Wang,
- Abstract要約: 経験的リスク最小化のためのマルチパス・ミニバッチ・グラディエント・Descent (SGD) 手順の学習力学について検討した。
サンプルサイズ$n$とデータディメンション$d$が比例的に増加する制限条件では、サブ線形バッチサイズ$asymp n where $in [0, 1)$に対して、SGDの座標ワイドダイナミクスを正確に評価する。
- 参考スコア(独自算出の注目度): 2.2129910930772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the learning dynamics of a multi-pass, mini-batch Stochastic Gradient Descent (SGD) procedure for empirical risk minimization in high-dimensional multi-index models with isotropic random data. In an asymptotic regime where the sample size $n$ and data dimension $d$ increase proportionally, for any sub-linear batch size $κ\asymp n^α$ where $α\in [0,1)$, and for a commensurate ``critical'' scaling of the learning rate, we provide an asymptotically exact characterization of the coordinate-wise dynamics of SGD. This characterization takes the form of a system of dynamical mean-field equations, driven by a scalar Poisson jump process that represents the asymptotic limit of SGD sampling noise. We develop an analogous characterization of the Stochastic Modified Equation (SME) which provides a Gaussian diffusion approximation to SGD. Our analyses imply that the limiting dynamics for SGD are the same for any batch size scaling $α\in [0,1)$, and that under a commensurate scaling of the learning rate, dynamics of SGD, SME, and gradient flow are mutually distinct, with those of SGD and SME coinciding in the special case of a linear model. We recover a known dynamical mean-field characterization of gradient flow in a limit of small learning rate, and of one-pass/online SGD in a limit of increasing sample size $n/d \to \infty$.
- Abstract(参考訳): 等方的乱数データを持つ高次元多次元インデクスモデルにおいて、実証的リスク最小化のためのマルチパス・ミニバッチ確率勾配決定法(SGD)の学習ダイナミクスについて検討する。
サンプルサイズ$n$とデータ次元$d$が比例的に増加する漸近的状態において、任意のサブ線形バッチサイズ$κ\asymp n^α$ where $α\in [0,1)$に対して、学習率の「クリティカル」なスケーリングに対して、SGDの座標ワイドダイナミクスを漸近的に正確に評価する。
この特徴付けは、SGDサンプリングノイズの漸近極限を表すスカラーポアソンジャンププロセスによって駆動される力学平均場方程式の体系の形を取る。
我々は,SGDにガウス拡散近似を与える確率修正方程式(SME)の類似特性を開発する。
解析の結果, SGD の制限力学は任意のバッチサイズで同じであり, 学習速度の総合的スケーリングでは, SGD や SME , 勾配流のダイナミクスは線形モデルの特別な場合において, SGD や SME の力学と相互に異なることが示唆された。
学習速度の制限下での勾配流の動的平均場特性と,サンプルサイズ$n/d \to \infty$の制限下でのワンパス/オンラインSGDを復元する。
関連論文リスト
- Exact Dynamics of Multi-class Stochastic Gradient Descent [4.1538344141902135]
ワンパス勾配勾配法(SGD)を用いて学習した多種多様な高次元最適化問題の学習・学習速度ダイナミクスを解析するためのフレームワークを開発する。
我々は、ODEのシステムに対する決定論的解という観点から、リスクや真の信号との重なり合いを含む、制限力学の関数の大規模なクラスに対して、正確な表現を与える。
論文 参考訳(メタデータ) (2025-10-15T20:31:49Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Stochastic Differential Equations models for Least-Squares Stochastic Gradient Descent [6.3151583550712065]
グラディエントDescent(SGD)の連続時間モデルのダイナミクスについて検討する。
我々は,SGDをモデル化する退化微分方程式(squareSDEs)を,トレーニング損失(有限サンプル)と集団1(オンライン設定)のいずれにおいても解析する。
論文 参考訳(メタデータ) (2024-07-02T14:52:21Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Hitting the High-Dimensional Notes: An ODE for SGD learning dynamics on
GLMs and multi-index models [10.781866671930857]
高次元限界におけるストリーミング勾配降下(SGD)のダイナミクスを解析する。
我々は、通常の微分方程式の体系の形で、SGDの決定論的等価性を実証する。
決定論的等価性に加えて、単純化された拡散係数を持つSDEを導入する。
論文 参考訳(メタデータ) (2023-08-17T13:33:02Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - The effective noise of Stochastic Gradient Descent [9.645196221785694]
Gradient Descent (SGD) は、ディープラーニング技術のワークホースアルゴリズムである。
SGDのパラメータと最近導入された変種である永続型SGDをニューラルネットワークモデルで特徴づける。
よりノイズの多いアルゴリズムは、対応する制約満足度問題のより広い決定境界につながる。
論文 参考訳(メタデータ) (2021-12-20T20:46:19Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Dynamical mean-field theory for stochastic gradient descent in Gaussian
mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。
連続次元勾配流に拡張可能なプロトタイププロセスを定義する。
フルバッチ限界では、標準勾配流を回復する。
論文 参考訳(メタデータ) (2020-06-10T22:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。