論文の概要: Almost sure convergence rates for Stochastic Gradient Descent and
Stochastic Heavy Ball
- arxiv url: http://arxiv.org/abs/2006.07867v2
- Date: Fri, 5 Feb 2021 13:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 12:39:05.086827
- Title: Almost sure convergence rates for Stochastic Gradient Descent and
Stochastic Heavy Ball
- Title(参考訳): 確率勾配Descentと確率重球のほぼ確実に収束率
- Authors: Othmane Sebbouh, Robert M. Gower and Aaron Defazio
- Abstract要約: 一般近似問題に対する勾配降下法(SGD)と重球法(SHB)について検討した。
SGD の場合、凸と滑らかな設定において、イテレートの重み付き平均に対して、最初の最も確実な収束式を提供する。
- 参考スコア(独自算出の注目度): 17.33867778750777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study stochastic gradient descent (SGD) and the stochastic heavy ball
method (SHB, otherwise known as the momentum method) for the general stochastic
approximation problem.
For SGD, in the convex and smooth setting, we provide the first \emph{almost
sure} asymptotic convergence \emph{rates} for a weighted average of the
iterates . More precisely, we show that the convergence rate of the function
values is arbitrarily close to $o(1/\sqrt{k})$, and is exactly $o(1/k)$ in the
so-called overparametrized case. We show that these results still hold when
using stochastic line search and stochastic Polyak stepsizes, thereby giving
the first proof of convergence of these methods in the non-overparametrized
regime.
Using a substantially different analysis, we show that these rates hold for
SHB as well, but at the last iterate. This distinction is important because it
is the last iterate of SGD and SHB which is used in practice. We also show that
the last iterate of SHB converges to a minimizer \emph{almost surely}.
Additionally, we prove that the function values of the deterministic HB
converge at a $o(1/k)$ rate, which is faster than the previously known
$O(1/k)$.
Finally, in the nonconvex setting, we prove similar rates on the lowest
gradient norm along the trajectory of SGD.
- Abstract(参考訳): 一般確率的近似問題に対する確率的勾配降下法(sgd)と確率的重球法(shb)について検討した。
SGD に対して、凸かつ滑らかな設定では、イテレートの重み付き平均に対して最初の \emph{almost sure} 漸近収束 \emph{rates} を与える。
より正確には、関数値の収束率は任意に$o(1/\sqrt{k})$であり、いわゆる過パラメータの場合において正確に$o(1/k)$であることを示す。
確率的直線探索法と確率的ポリアックステップ法を用いることにより,非パラメータ化法においてこれらの手法が収束することを示す最初の証明が得られた。
実質的に異なる分析結果を用いて,sebについてもこの割合が有するが,最後に反復することを示す。
この区別は、実際に使用されるSGDとSHBの最後のイテレーションであるため重要である。
また、SHB の最後の反復は最小値 \emph{almost surely} に収束することを示す。
さらに、決定論的 hb の関数値は、以前知られていた $o(1/k)$ よりも速い $o(1/k)$ で収束することを証明する。
最後に、非凸設定では、SGD の軌道に沿った最低勾配ノルムに対して同様の速度を示す。
関連論文リスト
- Revisiting the Last-Iterate Convergence of Stochastic Gradient Methods [25.831462008050387]
グラディエント・Descent(SGD)アルゴリズムは、実際の性能が良く、理論的な理解が欠如していることから、人々の関心を喚起している。
有限収束がより広い合成最適化や非ユークリッドノルムに証明可能な拡張が可能かどうかはまだ不明である。
論文 参考訳(メタデータ) (2023-12-13T21:41:06Z) - Convergence Rates for Stochastic Approximation: Biased Noise with Unbounded Variance, and Applications [2.0584253077707477]
目的関数 $J(cdot)$ の定常点を求めるグラディエント・Descent (SGD) 法の収束特性について検討した。
この結果は、すべての定常点が大域最小値である性質を持つ invex' 関数のクラスに適用できる。
論文 参考訳(メタデータ) (2023-12-05T15:22:39Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization [116.89941263390769]
滑らかな凸凹凸結合型サドル点問題, $min_mathbfxmax_mathbfyF(mathbfx) + H(mathbfx,mathbfy)$ を考える。
漸進的勾配指数(AG-EG)降下指数アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-06-17T06:10:20Z) - On Almost Sure Convergence Rates of Stochastic Gradient Methods [11.367487348673793]
勾配法で得られるほぼ確実な収束速度が、可能な限り最適な収束速度に任意に近づくことを示す。
非客観的関数に対しては、二乗勾配ノルムの重み付き平均がほぼ確実に収束するだけでなく、ほぼ確実に0となることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:30Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Fast Rates for the Regret of Offline Reinforcement Learning [69.23654172273085]
無限水平割引決定プロセス(MDP)における固定行動ポリシーによって生成されたオフラインデータからの強化学習の後悔について検討する。
最適品質関数 $Q*$ に対する任意の推定が与えられたとき、定義するポリシーの後悔は、$Q*$-estimate の点収束率の指数によって与えられる速度で収束することを示す。
論文 参考訳(メタデータ) (2021-01-31T16:17:56Z) - On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。
我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文 参考訳(メタデータ) (2020-06-19T14:11:26Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z) - Stochastic gradient-free descents [8.663453034925363]
本稿では,最適化問題の解法として,モーメント付き勾配法と加速勾配を提案する。
本研究では,これらの手法の収束挙動を平均分散フレームワークを用いて解析する。
論文 参考訳(メタデータ) (2019-12-31T13:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。