論文の概要: High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling
- arxiv url: http://arxiv.org/abs/2206.04030v1
- Date: Wed, 8 Jun 2022 17:42:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 14:01:44.784503
- Title: High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling
- Title(参考訳): SGDの高次元極限定理:有効力学と臨界スケーリング
- Authors: Gerard Ben Arous, Reza Gheissari, and Aukosh Jagannath
- Abstract要約: 本研究では,高次元状態における勾配勾配勾配勾配(SGD)のスケーリング限界について検討した。
本稿では,スパイク行列とテンソルモデルの推定や2層ネットワークによる分類など,一般的な例に対するアプローチを示す。
- 参考スコア(独自算出の注目度): 1.988145627448243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the scaling limits of stochastic gradient descent (SGD) with
constant step-size in the high-dimensional regime. We prove limit theorems for
the trajectories of summary statistics (i.e., finite-dimensional functions) of
SGD as the dimension goes to infinity. Our approach allows one to choose the
summary statistics that are tracked, the initialization, and the step-size. It
yields both ballistic (ODE) and diffusive (SDE) limits, with the limit
depending dramatically on the former choices. Interestingly, we find a critical
scaling regime for the step-size below which the effective ballistic dynamics
matches gradient flow for the population loss, but at which, a new correction
term appears which changes the phase diagram. About the fixed points of this
effective dynamics, the corresponding diffusive limits can be quite complex and
even degenerate. We demonstrate our approach on popular examples including
estimation for spiked matrix and tensor models and classification via two-layer
networks for binary and XOR-type Gaussian mixture models. These examples
exhibit surprising phenomena including multimodal timescales to convergence as
well as convergence to sub-optimal solutions with probability bounded away from
zero from random (e.g., Gaussian) initializations.
- Abstract(参考訳): 高次元状態における確率勾配勾配勾配(SGD)のスケーリング限界について検討した。
次元が無限になるにつれて、sgd の要約統計(すなわち有限次元関数)の軌跡に対する極限定理が証明される。
提案手法では,追跡した要約統計,初期化,ステップサイズを選択することができる。
これは弾道性(ODE)と拡散性(SDE)の両方の限界をもたらし、その限界は以前の選択に大きく依存する。
興味深いことに、有効な弾道力学が人口減少の勾配流にマッチするステップサイズ以下の臨界スケールレジームを見いだすことができるが、その上で位相図を変える新しい補正項が現れる。
この実効力学の固定点について、対応する拡散極限は非常に複雑であり、さらに退化する。
スパイク行列とテンソルモデルの推定や,二元およびxor型ガウス混合モデルの2層ネットワークによる分類など,一般的な例に対するアプローチを実証する。
これらの例は、収束へのマルチモーダル時間スケールや、確率がゼロからランダム(例えばガウス)初期化から離れた準最適解への収束を含む驚くべき現象を示す。
関連論文リスト
- Large data limits and scaling laws for tSNE [1.2085509610251701]
元の tSNE アルゴリズムの埋め込みは、$n から in$ への一貫した極限を持たないことを示す。
本稿では、魅力的なエネルギーの減衰を緩和し、一貫した極限を持つ再スケールモデルを提案する。
論文 参考訳(メタデータ) (2024-10-16T21:43:02Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - High-dimensional scaling limits and fluctuations of online least-squares SGD with smooth covariance [16.652085114513273]
オンライン最小二乗勾配 Descent (SGD) アルゴリズムの高次元スケーリング限界とゆらぎを導出する。
その結果, 平均二乗推定や予測誤差の制限や変動など, いくつかの応用が得られた。
論文 参考訳(メタデータ) (2023-04-03T03:50:00Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - SGD in the Large: Average-case Analysis, Asymptotics, and Stepsize
Criticality [15.640534097470923]
本稿では,サンプル数と寸法がともに大きい場合の勾配降下(SGD)のダイナミクスを解析するための新しい枠組みを提案する。
この新たな枠組みを用いて, ランダムデータを用いた最小二乗問題におけるSGDの力学が, 標本および次元限界において決定論的になることを示す。
論文 参考訳(メタデータ) (2021-02-08T18:00:13Z) - Last iterate convergence of SGD for Least-Squares in the Interpolation
regime [19.05750582096579]
基本最小二乗構成におけるノイズレスモデルについて検討する。
最適予測器が完全に入力に適合すると仮定し、$langletheta_*, phi(X) rangle = Y$, ここで$phi(X)$は無限次元の非線型特徴写像を表す。
論文 参考訳(メタデータ) (2021-02-05T14:02:20Z) - A Dynamical Central Limit Theorem for Shallow Neural Networks [48.66103132697071]
平均極限の周りのゆらぎは、トレーニングを通して平均正方形に有界であることを証明する。
平均場ダイナミクスがトレーニングデータを補間する尺度に収束すると、最終的にCLTスケーリングにおいて偏差が消えることを示す。
論文 参考訳(メタデータ) (2020-08-21T18:00:50Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Dynamical mean-field theory for stochastic gradient descent in Gaussian
mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。
連続次元勾配流に拡張可能なプロトタイププロセスを定義する。
フルバッチ限界では、標準勾配流を回復する。
論文 参考訳(メタデータ) (2020-06-10T22:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。