論文の概要: On the Convergence of Step Decay Step-Size for Stochastic Optimization
- arxiv url: http://arxiv.org/abs/2102.09393v1
- Date: Thu, 18 Feb 2021 14:37:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 14:25:53.556650
- Title: On the Convergence of Step Decay Step-Size for Stochastic Optimization
- Title(参考訳): 確率最適化のためのステップデカイステップサイズ収束について
- Authors: Xiaoyu Wang, Sindri Magn\'usson and Mikael Johansson
- Abstract要約: 神経系の収束は、特にネットワーク問題などの非数学問題において、ステップサイズ率に大きく依存する。
非スムース状態における崩壊の収束を提供し、勾配ノルムが消えることを保証する。
強い凸の場合、$(T/ST)$レートを確立し、$(T/ST)$レートであることも証明します。
- 参考スコア(独自算出の注目度): 27.02857082612736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The convergence of stochastic gradient descent is highly dependent on the
step-size, especially on non-convex problems such as neural network training.
Step decay step-size schedules (constant and then cut) are widely used in
practice because of their excellent convergence and generalization qualities,
but their theoretical properties are not yet well understood. We provide the
convergence results for step decay in the non-convex regime, ensuring that the
gradient norm vanishes at an $\mathcal{O}(\ln T/\sqrt{T})$ rate. We also
provide the convergence guarantees for general (possibly non-smooth) convex
problems, ensuring an $\mathcal{O}(\ln T/\sqrt{T})$ convergence rate. Finally,
in the strongly convex case, we establish an $\mathcal{O}(\ln T/T)$ rate for
smooth problems, which we also prove to be tight, and an $\mathcal{O}(\ln^2 T
/T)$ rate without the smoothness assumption. We illustrate the practical
efficiency of the step decay step-size in several large scale deep neural
network training tasks.
- Abstract(参考訳): 確率勾配降下の収束は、ステップサイズ、特にニューラルネットワークの訓練のような非凸問題に大きく依存している。
ステップ崩壊のステップサイズスケジュール(定数とカット)は、その優れた収束性と一般化特性のため、実際に広く用いられているが、その理論的性質はまだよく理解されていない。
非凸系におけるステップ減衰の収束結果を提供し、勾配ノルムが$\mathcal{o}(\ln t/\sqrt{t})$レートで消滅することを保証する。
また、一般(おそらく非滑らかな)凸問題に対する収束保証を提供し、$\mathcal{O}(\ln T/\sqrt{T})$収束率を保証する。
最後に、強凸の場合、滑らかな問題に対する $\mathcal{O}(\ln T/T)$ レートを確立し、これはまた、タイトであることを証明し、滑らかさの仮定なしに $\mathcal{O}(\ln^2 T/T)$ レートを確立する。
複数の大規模深層ニューラルネットワークトレーニングタスクにおけるステップ崩壊ステップサイズの実用的効率を示す。
関連論文リスト
- Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency [47.8739414267201]
線形分離可能なデータを用いたロジスティック回帰に一定の段差を持つ勾配降下(GD)を考える。
GD はこの初期振動位相を急速に終了し、$mathcalO(eta)$ steps となり、その後$tildemathcalO (1 / (eta t) )$ convergence rate が得られることを示す。
我々の結果は、予算が$T$ ステップであれば、GD は攻撃的なステップサイズで $tildemathcalO (1/T2)$ の加速損失を達成できることを示している。
論文 参考訳(メタデータ) (2024-02-24T23:10:28Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization [116.89941263390769]
滑らかな凸凹凸結合型サドル点問題, $min_mathbfxmax_mathbfyF(mathbfx) + H(mathbfx,mathbfy)$ を考える。
漸進的勾配指数(AG-EG)降下指数アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-06-17T06:10:20Z) - Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。
我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。
他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文 参考訳(メタデータ) (2021-10-21T19:22:14Z) - Last iterate convergence of SGD for Least-Squares in the Interpolation
regime [19.05750582096579]
基本最小二乗構成におけるノイズレスモデルについて検討する。
最適予測器が完全に入力に適合すると仮定し、$langletheta_*, phi(X) rangle = Y$, ここで$phi(X)$は無限次元の非線型特徴写像を表す。
論文 参考訳(メタデータ) (2021-02-05T14:02:20Z) - Hybrid Stochastic-Deterministic Minibatch Proximal Gradient:
Less-Than-Single-Pass Optimization with Nearly Optimal Generalization [83.80460802169999]
HSDMPGは、学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成可能であることを示す。
損失係数について、HSDMPGは学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成できることを示す。
論文 参考訳(メタデータ) (2020-09-18T02:18:44Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。
我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文 参考訳(メタデータ) (2020-06-19T14:11:26Z) - S-ADDOPT: Decentralized stochastic first-order optimization over
directed graphs [16.96562173221624]
有向ネットワークノード上に分散する関数のスムーズかつ高コストな関数の和を最小化するために,分散凸最適化を提案する。
特に,各ノードに1次オラクルを仮定するtextbftextttS-ADDOPTアルゴリズムを提案する。
崩壊するステップサイズ$mathcalO (1/k)$に対して、textbfttS-ADDOPT が$mathcalO (1/k)$ で正解に達し、その収束はネットワーク非依存であることを示す。
論文 参考訳(メタデータ) (2020-05-15T21:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。