論文の概要: High-dimensional limit theorems for SGD: Momentum and Adaptive Step-sizes
- arxiv url: http://arxiv.org/abs/2511.03952v1
- Date: Thu, 06 Nov 2025 01:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.258178
- Title: High-dimensional limit theorems for SGD: Momentum and Adaptive Step-sizes
- Title(参考訳): SGDの高次元極限定理:モーメントと適応ステップサイズ
- Authors: Aukosh Jagannath, Taj Jones-McCormick, Varnan Sarangian,
- Abstract要約: 我々は,ポリアクモメンタム(SGD-M)と適応的なステップサイズを持つグラディエントDescentの高次元スケーリング限界を開発する。
SGD-Mのスケーリング限界は、適切な時間再スケーリングと特定のステップサイズ選択の後にオンラインSGDのスケーリング限界と一致することを示す。
我々は、スパイクPCAとシングルインデックスモデルという2つの一般的な学習問題に関するフレームワークを実証する。
- 参考スコア(独自算出の注目度): 5.436813619675772
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We develop a high-dimensional scaling limit for Stochastic Gradient Descent with Polyak Momentum (SGD-M) and adaptive step-sizes. This provides a framework to rigourously compare online SGD with some of its popular variants. We show that the scaling limits of SGD-M coincide with those of online SGD after an appropriate time rescaling and a specific choice of step-size. However, if the step-size is kept the same between the two algorithms, SGD-M will amplify high-dimensional effects, potentially degrading performance relative to online SGD. We demonstrate our framework on two popular learning problems: Spiked Tensor PCA and Single Index Models. In both cases, we also examine online SGD with an adaptive step-size based on normalized gradients. In the high-dimensional regime, this algorithm yields multiple benefits: its dynamics admit fixed points closer to the population minimum and widens the range of admissible step-sizes for which the iterates converge to such solutions. These examples provide a rigorous account, aligning with empirical motivation, of how early preconditioners can stabilize and improve dynamics in settings where online SGD fails.
- Abstract(参考訳): 確率勾配Descent の高次元スケーリング限界をPolyak Momentum (SGD-M) と適応的なステップサイズで構築する。
このフレームワークは、オンラインSGDと人気の亜種を厳格に比較するためのフレームワークを提供する。
SGD-Mのスケーリング限界は、適切な時間再スケーリングと特定のステップサイズ選択の後にオンラインSGDのスケーリング限界と一致することを示す。
しかし、ステップサイズが2つのアルゴリズムで同じであれば、SGD-Mは高次元効果を増幅し、オンラインSGDと比較して性能が低下する可能性がある。
我々は、スパイクテンソルPCAとシングルインデックスモデルという2つの一般的な学習問題のフレームワークを実証する。
いずれの場合も、正規化勾配に基づく適応的なステップサイズを持つオンラインSGDについても検討する。
高次元のレジームでは、このアルゴリズムは複数の利点をもたらす: その力学は、集団の最小値に近い固定点を認め、反復がそのような解に収束する許容可能なステップサイズの範囲を広げる。
これらの例は、オンラインSGDが失敗する設定における初期プレコンディショナーの安定化と動的改善の方法に関する経験的モチベーションと整合した厳密な説明を提供する。
関連論文リスト
- On the Convergence of DP-SGD with Adaptive Clipping [56.24689348875711]
勾配クリッピングによるグラディエントDescentは、微分プライベート最適化を実現するための強力な技術である。
本稿では,量子クリッピング(QC-SGD)を用いたSGDの総合収束解析について述べる。
本稿では,QC-SGDが一定閾値クリッピングSGDに類似したバイアス問題にどのように悩まされているかを示す。
論文 参考訳(メタデータ) (2024-12-27T20:29:47Z) - Statistical Inference for Linear Functionals of Online SGD in High-dimensional Linear Regression [7.884611719110979]
勾配降下 (SGD) は、データ科学者のツールボックスにおいて重要な方法として登場した。
我々は,オンラインSGDの線形汎関数に対する高次元中心極限定理(CLT)を確立し,非等方的ガウス入力を用いた過度な最小二乗回帰を行う。
我々は,CLTに現れる分散項を推定するオンライン手法を開発し,開発したオンライン推定器の高確率バウンダリを確立する。
論文 参考訳(メタデータ) (2023-02-20T02:38:36Z) - Adaptive Step-Size Methods for Compressed SGD [15.32764898836189]
分散および分散化ネットワークにおける通信ボトルネックに対処するために,圧縮分散型グラディエント Descent (SGD) アルゴリズムが最近提案されている。
我々は、圧縮データセットの順序収束率を確立するために使用するスケーリングステップを導入する。
実世界のデータセットに対する実験結果を示す。
論文 参考訳(メタデータ) (2022-07-20T17:20:58Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - Last Iterate Risk Bounds of SGD with Decaying Stepsize for
Overparameterized Linear Regression [122.70478935214128]
勾配降下(SGD)は、多くのディープラーニングアプリケーションでよく一般化されている。
本稿では, 崩壊段階のSGDの最終反復リスク境界に関する問題依存解析を行う。
論文 参考訳(メタデータ) (2021-10-12T17:49:54Z) - The Benefits of Implicit Regularization from SGD in Least Squares
Problems [116.85246178212616]
勾配降下(SGD)はアルゴリズム正則化効果が強い。
我々は、(正規化されていない)平均SGDで得られる暗黙の正則化とリッジ回帰の明示的な正則化の比較を行う。
論文 参考訳(メタデータ) (2021-08-10T09:56:47Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。