論文の概要: High-dimensional Limit of SGD for Diagonal Linear Networks
- arxiv url: http://arxiv.org/abs/2605.17177v1
- Date: Sat, 16 May 2026 22:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.723368
- Title: High-dimensional Limit of SGD for Diagonal Linear Networks
- Title(参考訳): 対角線ネットワークにおけるSGDの高次元限界
- Authors: Begoña García Malaxechebarría, Courtney Paquette, Maryam Fazel, Dmitriy Drusvyatskiy,
- Abstract要約: 対角線ネットワーク上の勾配勾配は微分方程式(SDE)によって支配される連続力学によりよく近似されることを示す。
適切なパラメトリゼーションの下では、このダイナミクスは地球規模で十分に仮定され、高い確率で指数関数的に高速にゼロリスクに収束し、それらの長時間の振る舞いを完全に明示的な非漸近的記述をもたらすことが示される。
- 参考スコア(独自算出の注目度): 20.199898128645497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the behavior of stochastic gradient methods is a central problem in modern machine learning. Recent work has highlighted diagonal linear networks as a simplified yet expressive setting for analyzing the optimization and generalization properties of neural models. In this work, we show that in the high-dimensional regime, stochastic gradient descent on diagonal linear networks is well-approximated by continuous dynamics governed by a stochastic differential equation (SDE), which explicitly decouples the drift from the gradient noise. We further derive a deterministic partial differential equation whose solution propagates the relevant state of the iterates and characterizes the time evolution of a broad class of observable statistics, including the risk, curvature, and other metrics for optimality. Finally, we show that, under a suitable parametrization, the stochastic dynamics are globally well posed and converge exponentially fast to zero risk with high probability, yielding a fully explicit non-asymptotic description of their long-time behavior. Numerical simulations corroborate our theoretical findings.
- Abstract(参考訳): 確率勾配法の振る舞いを理解することは、現代の機械学習における中心的な問題である。
最近の研究は、ニューラルネットワークの最適化と一般化特性を解析するための簡易で表現力豊かな設定として、対角線ネットワークを強調している。
本研究では,高次元状態において,斜交線形ネットワーク上の確率勾配勾配は,勾配雑音からのドリフトを明示的に分離する確率微分方程式 (SDE) によって支配される連続力学によりよく近似されることを示す。
さらに、解が反復の関連状態を伝播する決定論的偏微分方程式を導出し、リスク、曲率、その他の最適性の測定値を含む観測可能な幅広い統計量の時間的進化を特徴付ける。
最後に、適切なパラメトリゼーションの下では、確率力学は全世界的によく分布し、高い確率で指数関数的に高速に0のリスクに収束し、その長期的挙動を完全に明示的な非漸近的記述をもたらすことを示す。
数値シミュレーションは我々の理論的な結果を裏付ける。
関連論文リスト
- Gradient Descent as a Perceptron Algorithm: Understanding Dynamics and Implicit Acceleration [67.12978375116599]
勾配降下(GD)のステップが一般化されたパーセプトロンアルゴリズムのステップに還元されることを示す。
これは、ニューラルネットワークで観測される最適化力学と暗黙の加速現象を説明するのに役立つ。
論文 参考訳(メタデータ) (2025-12-12T14:16:35Z) - Convergence of Stochastic Gradient Langevin Dynamics in the Lazy Training Regime [4.297070083645049]
継続的モデルは、ディープラーニングにおける最適化アルゴリズムのトレーニングダイナミクスに関する洞察を提供する。
我々は勾配ランゲヴィンダイナミクス(SGLD)の非漸近収束解析を確立する。
損失関数のヘシアン上の規則性条件下では、乗法および状態依存雑音を持つSGLDは、高い確率でトレーニング過程を通して非退化核を生成することを示す。
論文 参考訳(メタデータ) (2025-10-24T08:28:53Z) - Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Rigorous dynamical mean field theory for stochastic gradient descent
methods [17.90683687731009]
一階勾配法の一家系の正確な高次元に対する閉形式方程式を証明した。
これには勾配降下(SGD)やネステロフ加速度などの広く使われているアルゴリズムが含まれる。
論文 参考訳(メタデータ) (2022-10-12T21:10:55Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Dynamical mean-field theory for stochastic gradient descent in Gaussian
mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。
連続次元勾配流に拡張可能なプロトタイププロセスを定義する。
フルバッチ限界では、標準勾配流を回復する。
論文 参考訳(メタデータ) (2020-06-10T22:49:41Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。