論文の概要: Accelerated Convergence of Stochastic Heavy Ball Method under Anisotropic Gradient Noise
- arxiv url: http://arxiv.org/abs/2312.14567v2
- Date: Sun, 17 Mar 2024 05:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 02:32:43.019354
- Title: Accelerated Convergence of Stochastic Heavy Ball Method under Anisotropic Gradient Noise
- Title(参考訳): 異方性勾配雑音下での確率重ボール法の加速収束
- Authors: Rui Pan, Yuxing Liu, Xiaoyu Wang, Tong Zhang,
- Abstract要約: 重球運動量法は加速収束を提供し、大きなバッチ設定でうまく機能するはずだと広く推測されている。
重球運動量は, SGDの偏差項の加速収束率を$tildemathcalO(sqrtkappa)$で達成し, ほぼ最適収束率を達成できることを示した。
つまり、重い球運動量を持つSGDは、分散機械学習やフェデレーション学習のような大規模なバッチ設定で有用である。
- 参考スコア(独自算出の注目度): 16.12834917344859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Heavy-ball momentum with decaying learning rates is widely used with SGD for optimizing deep learning models. In contrast to its empirical popularity, the understanding of its theoretical property is still quite limited, especially under the standard anisotropic gradient noise condition for quadratic regression problems. Although it is widely conjectured that heavy-ball momentum method can provide accelerated convergence and should work well in large batch settings, there is no rigorous theoretical analysis. In this paper, we fill this theoretical gap by establishing a non-asymptotic convergence bound for stochastic heavy-ball methods with step decay scheduler on quadratic objectives, under the anisotropic gradient noise condition. As a direct implication, we show that heavy-ball momentum can provide $\tilde{\mathcal{O}}(\sqrt{\kappa})$ accelerated convergence of the bias term of SGD while still achieving near-optimal convergence rate with respect to the stochastic variance term. The combined effect implies an overall convergence rate within log factors from the statistical minimax rate. This means SGD with heavy-ball momentum is useful in the large-batch settings such as distributed machine learning or federated learning, where a smaller number of iterations can significantly reduce the number of communication rounds, leading to acceleration in practice.
- Abstract(参考訳): 学習速度が減衰する重い球運動量は、深層学習モデルの最適化にSGDで広く利用されている。
その経験的人気とは対照的に、その理論的性質の理解は、特に二次回帰問題に対する標準的な異方性勾配雑音条件の下では、依然として非常に限定的である。
重い球運動量法は加速収束を提供し、大きなバッチ設定でうまく機能すると広く推測されているが、厳密な理論的解析は存在しない。
本稿では,2次目的のステップ減衰スケジューラを用いた確率重畳法における非漸近収束境界を異方性勾配雑音条件下で確立することにより,この理論的ギャップを埋める。
直接的含意として、重球運動量によってSGDのバイアス項の加速収束が得られ、確率的分散項に関して準最適収束率が達成できることが示される。
この組み合わせ効果は、統計的ミニマックスレートからログファクタ内の全体的な収束率を意味する。
つまり、重い球運動量を持つSGDは、分散機械学習やフェデレーション学習のような大規模なバッチ設定において有用である。
関連論文リスト
- Variance-Reducing Couplings for Random Features: Perspectives from Optimal Transport [57.73648780299374]
ランダム機能(RF)は、機械学習におけるカーネルメソッドをスケールアップするための一般的なテクニックであり、正確なカーネル評価をモンテカルロ推定に置き換える。
我々は、理論的洞察と数値アルゴリズムを用いて最適な輸送の統一的な枠組みを用いて、ユークリッドおよび離散入力空間上で定義されたカーネルに対して、新しい高性能なRF結合を開発する。
パラダイムとしての分散還元の利点と限界について、驚くほどの結論に達した。
論文 参考訳(メタデータ) (2024-05-26T12:25:09Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。
実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文 参考訳(メタデータ) (2023-07-27T21:01:26Z) - Losing momentum in continuous-time stochastic optimisation [62.997667081978825]
近年,運動量に基づくアルゴリズムが特に普及している。
本研究では,運動量を伴う勾配降下の連続時間モデルを提案し,解析する。
我々は、時間とともに運動量を減らす際に、我々のシステムを世界規模のミニミザーに収束させることを示す。
論文 参考訳(メタデータ) (2022-09-08T10:46:05Z) - On the fast convergence of minibatch heavy ball momentum [6.154018226934517]
重球運動量は最適化問題に対する(決定論的)重球運動量の高速線形速度を保っていることを示す。
このアルゴリズムは,極小バッチと重い球運動量を持つランダム化カッツマーズアルゴリズムと解釈できる。
論文 参考訳(メタデータ) (2022-06-15T14:12:45Z) - Last-iterate convergence analysis of stochastic momentum methods for
neural networks [3.57214198937538]
運動量法は、ニューラルネットワークの大規模最適化問題を解決するために用いられる。
人工環境下での運動量測定法の電流収束結果
運動量係数は、既存の時間よりも定数に固定することができる。
論文 参考訳(メタデータ) (2022-05-30T02:17:44Z) - Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-31T16:08:06Z) - Reconciling Modern Deep Learning with Traditional Optimization Analyses:
The Intrinsic Learning Rate [36.83448475700536]
最近の研究は、今日のディープラーニングにおけるバッチ正規化の使用が、従来の最適化の観点から遠く離れていることを示唆している。
本稿では,正規化された網の振舞いが従来の視点から逸脱する他の方法を強調する。
我々はこれをFast Equilibrium Conjectureと呼び、バッチ正規化が有効である理由の鍵となることを示唆する。
論文 参考訳(メタデータ) (2020-10-06T17:58:29Z) - Hessian-Free High-Resolution Nesterov Acceleration for Sampling [55.498092486970364]
最適化のためのNesterovのAccelerated Gradient(NAG)は、有限のステップサイズを使用する場合の連続時間制限(ノイズなしの運動的ランゲヴィン)よりも優れたパフォーマンスを持つ。
本研究は, この現象のサンプリング法について検討し, 離散化により加速勾配に基づくMCMC法が得られる拡散過程を提案する。
論文 参考訳(メタデータ) (2020-06-16T15:07:37Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - Fractional Underdamped Langevin Dynamics: Retargeting SGD with Momentum
under Heavy-Tailed Gradient Noise [39.9241638707715]
FULDは, 深層学習における役割において, 自然的, エレガントな手法と類似性があることが示唆された。
論文 参考訳(メタデータ) (2020-02-13T18:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。