論文の概要: Trajectory of Mini-Batch Momentum: Batch Size Saturation and Convergence
in High Dimensions
- arxiv url: http://arxiv.org/abs/2206.01029v1
- Date: Thu, 2 Jun 2022 13:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 13:46:38.851647
- Title: Trajectory of Mini-Batch Momentum: Batch Size Saturation and Convergence
in High Dimensions
- Title(参考訳): ミニバッチモーメントの軌道:高次元におけるバッチサイズ飽和と収束
- Authors: Kiwon Lee, Andrew N. Cheng, Courtney Paquette and Elliot Paquette
- Abstract要約: SGD+M の力学は次元が増加するにつれて決定論的離散ボルテラ方程式に収束することを示す。
ICRよりも小さなバッチサイズの場合、SGD+Mは単一のバッチSGDレートの倍のスケールを持つ。
- 参考スコア(独自算出の注目度): 2.575030923243061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze the dynamics of large batch stochastic gradient descent with
momentum (SGD+M) on the least squares problem when both the number of samples
and dimensions are large. In this setting, we show that the dynamics of SGD+M
converge to a deterministic discrete Volterra equation as dimension increases,
which we analyze. We identify a stability measurement, the implicit
conditioning ratio (ICR), which regulates the ability of SGD+M to accelerate
the algorithm. When the batch size exceeds this ICR, SGD+M converges linearly
at a rate of $\mathcal{O}(1/\sqrt{\kappa})$, matching optimal full-batch
momentum (in particular performing as well as a full-batch but with a fraction
of the size). For batch sizes smaller than the ICR, in contrast, SGD+M has
rates that scale like a multiple of the single batch SGD rate. We give explicit
choices for the learning rate and momentum parameter in terms of the Hessian
spectra that achieve this performance.
- Abstract(参考訳): サンプル数と寸法がともに大きい場合の最小二乗問題において,運動量を伴う大規模バッチ確率勾配勾配(SGD+M)のダイナミクスを解析した。
この設定では、SGD+Mの力学が次元が増加するにつれて決定論的離散ボルテラ方程式に収束し、解析する。
我々は,SGD+Mがアルゴリズムを高速化する能力を調節する安定性測定,暗黙条件付け比(ICR)を同定する。
バッチサイズがこの ICR を超えると、SGD+M は $\mathcal{O}(1/\sqrt{\kappa})$ の速度で線形収束し、最適なフルバッチ運動量(特にフルバッチだけでなく、そのサイズもわずかである)に一致する。
一方、ICRより小さいバッチサイズでは、SGD+Mは単一のバッチSGDレートの倍のスケールを持つ。
我々は,この性能を実現するヘッセンスペクトルを用いて,学習率と運動量パラメータを明確に選択する。
関連論文リスト
- Increasing Batch Size Improves Convergence of Stochastic Gradient Descent with Momentum [0.6906005491572401]
運動量による勾配降下(SGDM)は理論と実践の両方でよく研究されている。
学習速度と運動量重みが一定であるミニバッチSGDMに着目した。
論文 参考訳(メタデータ) (2025-01-15T15:53:27Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - The Effect of SGD Batch Size on Autoencoder Learning: Sparsity,
Sharpness, and Feature Learning [14.004531386769328]
単一ニューロンオートエンコーダを用いた場合の勾配降下(SGD)のダイナミクスについて検討する。
サンプル数より小さいバッチサイズの場合、SGDは、そのランダム性にほぼ厳密で疎い、大域的な最小値を見つける。
論文 参考訳(メタデータ) (2023-08-06T21:54:07Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - Last Iterate Risk Bounds of SGD with Decaying Stepsize for
Overparameterized Linear Regression [122.70478935214128]
勾配降下(SGD)は、多くのディープラーニングアプリケーションでよく一般化されている。
本稿では, 崩壊段階のSGDの最終反復リスク境界に関する問題依存解析を行う。
論文 参考訳(メタデータ) (2021-10-12T17:49:54Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Dynamics of Stochastic Momentum Methods on Large-scale, Quadratic Models [0.2741266294612776]
我々は高次元ランダム最小二乗問題に対して運動量を持つ勾配アルゴリズムのクラスを解析する。
固定運動量パラメータを持つ(小バッチ)運動量では,ステップサイズを正確に調整した場合,SGDよりも実際の性能向上は得られないことを示す。
非強凸条件では、運動量を用いてSGDよりも大きな改善が得られる。
論文 参考訳(メタデータ) (2021-06-07T15:08:24Z) - SGD in the Large: Average-case Analysis, Asymptotics, and Stepsize
Criticality [15.640534097470923]
本稿では,サンプル数と寸法がともに大きい場合の勾配降下(SGD)のダイナミクスを解析するための新しい枠組みを提案する。
この新たな枠組みを用いて, ランダムデータを用いた最小二乗問題におけるSGDの力学が, 標本および次元限界において決定論的になることを示す。
論文 参考訳(メタデータ) (2021-02-08T18:00:13Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。
我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文 参考訳(メタデータ) (2020-06-19T14:11:26Z) - Momentum Improves Normalized SGD [51.27183254738711]
モーメントを追加することで、目的に対する大きなバッチサイズの必要性を確実に排除できることを示す。
本稿では,ResNet-50 や BERT といった大規模タスクの事前学習において,提案手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-02-09T07:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。