論文の概要: On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems
- arxiv url: http://arxiv.org/abs/2006.11144v1
- Date: Fri, 19 Jun 2020 14:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 04:23:52.438834
- Title: On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems
- Title(参考訳): 非凸問題における確率勾配のほぼ収束性について
- Authors: Panayotis Mertikopoulos and Nadav Hallak and Ali Kavis and Volkan
Cevher
- Abstract要約: 本稿では,勾配降下(SGD)の軌跡を解析する。
我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
- 参考スコア(独自算出の注目度): 75.58134963501094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper analyzes the trajectories of stochastic gradient descent (SGD) to
help understand the algorithm's convergence properties in non-convex problems.
We first show that the sequence of iterates generated by SGD remains bounded
and converges with probability $1$ under a very broad range of step-size
schedules. Subsequently, going beyond existing positive probability guarantees,
we show that SGD avoids strict saddle points/manifolds with probability $1$ for
the entire spectrum of step-size policies considered. Finally, we prove that
the algorithm's rate of convergence to Hurwicz minimizers is
$\mathcal{O}(1/n^{p})$ if the method is employed with a $\Theta(1/n^p)$
step-size schedule. This provides an important guideline for tuning the
algorithm's step-size as it suggests that a cool-down phase with a vanishing
step-size could lead to faster convergence; we demonstrate this heuristic using
ResNet architectures on CIFAR.
- Abstract(参考訳): 本稿では,非凸問題におけるアルゴリズムの収束特性を理解するために,確率勾配降下(SGD)の軌跡を解析する。
まず、SGD が生成した反復列が有界であり、非常に広いステップサイズのスケジュールの下で確率 1 ドルと収束することを示す。
その後、既存の正の確率保証を超えて、SGDは、考慮されるステップサイズポリシーの全スペクトルに対して、確率1ドルで厳密なサドルポイント/マニフォールドを避けることを示す。
最後に、アルゴリズムのHurwicz最小化への収束率が$\mathcal{O}(1/n^{p})$であることを証明する。
これにより、アルゴリズムのステップサイズをチューニングするための重要なガイドラインが提供される。これは、消失するステップサイズを持つ冷え込みフェーズが、CIFAR上のResNetアーキテクチャを使用したこのヒューリスティックな手法を実証する。
関連論文リスト
- Nonasymptotic Analysis of Stochastic Gradient Descent with the Richardson-Romberg Extrapolation [22.652143194356864]
ステップサイズが一定となる勾配勾配(SGD)アルゴリズムを用いて, 強い凸と滑らかな問題を解く問題に対処する。
得られた推定子の平均二乗誤差を$n$の反復数に対して拡張する。
我々は、この鎖が定義された重み付きワッサーシュタイン半計量に関して幾何学的にエルゴード的であることを確証する。
論文 参考訳(メタデータ) (2024-10-07T15:02:48Z) - On Convergence of Incremental Gradient for Non-Convex Smooth Functions [63.51187646914962]
機械学習とネットワーク最適化では、ミスの数と優れたキャッシュを最小化するため、シャッフルSGDのようなアルゴリズムが人気である。
本稿では任意のデータ順序付けによる収束特性SGDアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2023-05-30T17:47:27Z) - Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。
我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。
他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文 参考訳(メタデータ) (2021-10-21T19:22:14Z) - Last iterate convergence of SGD for Least-Squares in the Interpolation
regime [19.05750582096579]
基本最小二乗構成におけるノイズレスモデルについて検討する。
最適予測器が完全に入力に適合すると仮定し、$langletheta_*, phi(X) rangle = Y$, ここで$phi(X)$は無限次元の非線型特徴写像を表す。
論文 参考訳(メタデータ) (2021-02-05T14:02:20Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Almost sure convergence rates for Stochastic Gradient Descent and
Stochastic Heavy Ball [17.33867778750777]
一般近似問題に対する勾配降下法(SGD)と重球法(SHB)について検討した。
SGD の場合、凸と滑らかな設定において、イテレートの重み付き平均に対して、最初の最も確実な収束式を提供する。
論文 参考訳(メタデータ) (2020-06-14T11:12:05Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z) - Non-asymptotic Convergence of Adam-type Reinforcement Learning
Algorithms under Markovian Sampling [56.394284787780364]
本稿では、ポリシー勾配(PG)と時間差(TD)学習の2つの基本RLアルゴリズムに対して、最初の理論的収束解析を行う。
一般の非線形関数近似の下では、PG-AMSGradは定常点の近傍に収束し、$mathcalO(log T/sqrtT)$である。
線形関数近似の下では、一定段階のTD-AMSGradは$mathcalO(log T/sqrtT)の速度で大域的最適化の近傍に収束する。
論文 参考訳(メタデータ) (2020-02-15T00:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。