論文の概要: On the Hyperparameters in Stochastic Gradient Descent with Momentum
- arxiv url: http://arxiv.org/abs/2108.03947v1
- Date: Mon, 9 Aug 2021 11:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:40:19.727769
- Title: On the Hyperparameters in Stochastic Gradient Descent with Momentum
- Title(参考訳): モーメント付き確率勾配の過度パラメータについて
- Authors: Bin Shi
- Abstract要約: 本稿では,運動量を伴う勾配降下理論(SGD)について述べる。
以上の結果から,SGD の正の線形速度は,SGD が0 から0 に増加するにつれて変化し,SGD の線形速度が変化することを示す。
最後に、この速度下での代理運動量と運動量との本質的な違いは示さない。
- 参考スコア(独自算出の注目度): 6.396288020763144
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Following the same routine as [SSJ20], we continue to present the theoretical
analysis for stochastic gradient descent with momentum (SGD with momentum) in
this paper. Differently, for SGD with momentum, we demonstrate it is the two
hyperparameters together, the learning rate and the momentum coefficient, that
play the significant role for the linear rate of convergence in non-convex
optimization. Our analysis is based on the use of a hyperparameters-dependent
stochastic differential equation (hp-dependent SDE) that serves as a continuous
surrogate for SGD with momentum. Similarly, we establish the linear convergence
for the continuous-time formulation of SGD with momentum and obtain an explicit
expression for the optimal linear rate by analyzing the spectrum of the
Kramers-Fokker-Planck operator. By comparison, we demonstrate how the optimal
linear rate of convergence and the final gap for SGD only about the learning
rate varies with the momentum coefficient increasing from zero to one when the
momentum is introduced. Then, we propose a mathematical interpretation why the
SGD with momentum converges faster and more robust about the learning rate than
the standard SGD in practice. Finally, we show the Nesterov momentum under the
existence of noise has no essential difference with the standard momentum.
- Abstract(参考訳): 本論文では,[SSJ20]と同じルーチンに従って,運動量(運動量を含むSGD)による確率勾配降下の理論解析を継続する。
異なることに、運動量を持つSGDでは、非凸最適化における線形収束率に重要な役割を果たす2つのハイパーパラメータ、学習速度と運動量係数が示される。
解析は,運動量を持つSGDの連続代理として機能する超パラメータ依存確率微分方程式(hp依存SDE)を用いて行う。
同様に、運動量を持つSGDの連続時間定式化の線形収束を確立し、クラマース・フォッカー・プランク作用素のスペクトルを解析して最適線形率の明示的な式を得る。
比較して,学習速度についてのみSGDの収束の最適線形速度と最終ギャップが,運動量導入時の運動量係数が0から1に増加するにつれてどのように変化するかを示す。
そこで本研究では,運動量を持つSGDが標準のSGDよりも速く,より堅牢に収束する理由を数学的に解釈する。
最後に、ノイズの存在下でのネステロフ運動量は、標準運動量と本質的な違いがないことを示す。
関連論文リスト
- Role of Momentum in Smoothing Objective Function in Implicit Graduated
Optimization [0.8158530638728501]
運動量を持つ勾配降下(SGD)は、高速収束と優れた一般化性を有する。
運動量を持つSGDは、学習速度、バッチサイズ、運動量係数、勾配のばらつき、勾配ノルムの上界によって決定される目的関数を滑らかにすることを示す。
論文 参考訳(メタデータ) (2024-02-04T02:48:28Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Convergence rates for momentum stochastic gradient descent with noise of
machine learning type [1.4213973379473654]
我々は、降下スキーム(MSGD)の運動量と、その連続的インタイム(continuous-in-time)の運動量を考える。
対象関数に対する目的関数値のほぼ指数収束性を示す。
論文 参考訳(メタデータ) (2023-02-07T15:59:08Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Momentum via Primal Averaging: Theoretical Insights and Learning Rate
Schedules for Non-Convex Optimization [10.660480034605241]
ディープニューラルネットワークのような非トレーニングモデルのために、機械学習コミュニティ内で広く使用されている。
本研究では、SGDSPA(SGDSPA)形式のSGD等価な書き直しを利用して、運動量を持つSGDのリアプノフ解析を開発する。
論文 参考訳(メタデータ) (2020-10-01T13:46:32Z) - Hessian-Free High-Resolution Nesterov Acceleration for Sampling [55.498092486970364]
最適化のためのNesterovのAccelerated Gradient(NAG)は、有限のステップサイズを使用する場合の連続時間制限(ノイズなしの運動的ランゲヴィン)よりも優れたパフォーマンスを持つ。
本研究は, この現象のサンプリング法について検討し, 離散化により加速勾配に基づくMCMC法が得られる拡散過程を提案する。
論文 参考訳(メタデータ) (2020-06-16T15:07:37Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。