論文の概要: Hitting the High-Dimensional Notes: An ODE for SGD learning dynamics on
GLMs and multi-index models
- arxiv url: http://arxiv.org/abs/2308.08977v1
- Date: Thu, 17 Aug 2023 13:33:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 16:47:04.402361
- Title: Hitting the High-Dimensional Notes: An ODE for SGD learning dynamics on
GLMs and multi-index models
- Title(参考訳): 高次元ノートの強調:GLMとマルチインデックスモデルにおけるSGD学習ダイナミクスのODE
- Authors: Elizabeth Collins-Woodfin, Courtney Paquette, Elliot Paquette, Inbar
Seroussi
- Abstract要約: 高次元限界におけるストリーミング勾配降下(SGD)のダイナミクスを解析する。
我々は、通常の微分方程式の体系の形で、SGDの決定論的等価性を実証する。
決定論的等価性に加えて、単純化された拡散係数を持つSDEを導入する。
- 参考スコア(独自算出の注目度): 10.781866671930857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze the dynamics of streaming stochastic gradient descent (SGD) in the
high-dimensional limit when applied to generalized linear models and
multi-index models (e.g. logistic regression, phase retrieval) with general
data-covariance. In particular, we demonstrate a deterministic equivalent of
SGD in the form of a system of ordinary differential equations that describes a
wide class of statistics, such as the risk and other measures of
sub-optimality. This equivalence holds with overwhelming probability when the
model parameter count grows proportionally to the number of data. This
framework allows us to obtain learning rate thresholds for stability of SGD as
well as convergence guarantees. In addition to the deterministic equivalent, we
introduce an SDE with a simplified diffusion coefficient (homogenized SGD)
which allows us to analyze the dynamics of general statistics of SGD iterates.
Finally, we illustrate this theory on some standard examples and show numerical
simulations which give an excellent match to the theory.
- Abstract(参考訳): 一般化線形モデルとマルチインデックスモデル(例えば、ロジスティック回帰、位相探索)に適用した場合、高次元極限におけるストリーミング確率勾配勾配(SGD)のダイナミクスを一般的なデータ共分散で解析する。
特に、sgd の決定論的等価性は、リスクやその他の準最適性の測度のような幅広い統計クラスを記述する常微分方程式の系によって示される。
この等価性は、モデルパラメータ数がデータ数に比例して増加するとき、圧倒的な確率で成り立つ。
この枠組みにより,SGDの安定性と収束保証の学習率閾値を得ることができる。
決定論的等価性に加えて、単純化された拡散係数(均質化SGD)を持つSDEを導入し、SGD反復の一般統計のダイナミクスを解析する。
最後に、この理論をいくつかの標準的な例で説明し、その理論に優れた一致する数値シミュレーションを示す。
関連論文リスト
- Stochastic Differential Equations models for Least-Squares Stochastic Gradient Descent [6.3151583550712065]
グラディエントDescent(SGD)の連続時間モデルのダイナミクスについて検討する。
我々は,SGDをモデル化する退化微分方程式(squareSDEs)を,トレーニング損失(有限サンプル)と集団1(オンライン設定)のいずれにおいても解析する。
論文 参考訳(メタデータ) (2024-07-02T14:52:21Z) - On the Trajectory Regularity of ODE-based Diffusion Sampling [79.17334230868693]
拡散に基づく生成モデルは微分方程式を用いて、複素データ分布と抽出可能な事前分布の間の滑らかな接続を確立する。
本稿では,拡散モデルのODEに基づくサンプリングプロセスにおいて,いくつかの興味深い軌道特性を同定する。
論文 参考訳(メタデータ) (2024-05-18T15:59:41Z) - A Geometric Perspective on Diffusion Models [57.27857591493788]
本稿では,人気のある分散拡散型SDEのODEに基づくサンプリングについて検討する。
我々は、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立する。
論文 参考訳(メタデータ) (2023-05-31T15:33:16Z) - Acceleration of stochastic gradient descent with momentum by averaging:
finite-sample rates and asymptotic normality [7.793751573538388]
運動量による勾配降下(SGDM)は多くの機械学習や統計応用で広く利用されている。
強い凸条件下でSGDMの有限サンプル収束速度を解析する。
バッチサイズが大きいと、ミニバッチSGDMは、ミニバッチSGDよりも高速に、最適な値の近傍に収束することを示す。
論文 参考訳(メタデータ) (2023-05-28T08:49:24Z) - Rigorous dynamical mean field theory for stochastic gradient descent
methods [17.90683687731009]
一階勾配法の一家系の正確な高次元に対する閉形式方程式を証明した。
これには勾配降下(SGD)やネステロフ加速度などの広く使われているアルゴリズムが含まれる。
論文 参考訳(メタデータ) (2022-10-12T21:10:55Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - SGD in the Large: Average-case Analysis, Asymptotics, and Stepsize
Criticality [15.640534097470923]
本稿では,サンプル数と寸法がともに大きい場合の勾配降下(SGD)のダイナミクスを解析するための新しい枠組みを提案する。
この新たな枠組みを用いて, ランダムデータを用いた最小二乗問題におけるSGDの力学が, 標本および次元限界において決定論的になることを示す。
論文 参考訳(メタデータ) (2021-02-08T18:00:13Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。