論文の概要: Convergence rates and approximation results for SGD and its
continuous-time counterpart
- arxiv url: http://arxiv.org/abs/2004.04193v2
- Date: Fri, 29 Jan 2021 21:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 09:20:47.435969
- Title: Convergence rates and approximation results for SGD and its
continuous-time counterpart
- Title(参考訳): SGDとその連続時間に対する収束率と近似結果
- Authors: Xavier Fontaine, Valentin De Bortoli, and Alain Durmus
- Abstract要約: 本稿では,非増加ステップサイズを有する凸勾配Descent (SGD) の完全理論的解析を提案する。
まず、結合を用いた不均一微分方程式(SDE)の解により、SGDを確実に近似できることを示す。
連続的手法による決定論的および最適化手法の最近の分析において, 連続過程の長期的挙動と非漸近的境界について検討する。
- 参考スコア(独自算出の注目度): 16.70533901524849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a thorough theoretical analysis of Stochastic Gradient
Descent (SGD) with non-increasing step sizes. First, we show that the recursion
defining SGD can be provably approximated by solutions of a time inhomogeneous
Stochastic Differential Equation (SDE) using an appropriate coupling. In the
specific case of a batch noise we refine our results using recent advances in
Stein's method. Then, motivated by recent analyses of deterministic and
stochastic optimization methods by their continuous counterpart, we study the
long-time behavior of the continuous processes at hand and establish
non-asymptotic bounds. To that purpose, we develop new comparison techniques
which are of independent interest. Adapting these techniques to the discrete
setting, we show that the same results hold for the corresponding SGD
sequences. In our analysis, we notably improve non-asymptotic bounds in the
convex setting for SGD under weaker assumptions than the ones considered in
previous works. Finally, we also establish finite-time convergence results
under various conditions, including relaxations of the famous {\L}ojasiewicz
inequality, which can be applied to a class of non-convex functions.
- Abstract(参考訳): 本稿では,SGD(Stochastic Gradient Descent)の非増加ステップサイズによる理論的解析を提案する。
まず,再帰を定義するsgdは,適切なカップリングを用いて時間不均質な確率微分方程式 (sde) の解によって近似できることを示す。
バッチノイズの特定の場合、スタイン法における最近の進歩を用いて、結果を精錬する。
そして, 決定論的および確率的最適化手法の連続的手法による最近の解析から動機付け, 連続過程の長期的挙動を考察し, 非漸近的境界を確立する。
そこで我々は,独立性のある新たな比較手法を開発した。
これらの手法を離散的な設定に適応させることで、対応するSGD配列に対して同じ結果が成り立つことを示す。
本解析では,sgdの凸集合における非漸近的境界を,従来の研究よりも弱い仮定下で特に改善する。
最後に、非凸函数のクラスに適用できる有名な {\l}ojasiewicz不等式(英語版)の緩和を含む様々な条件下で有限時間収束結果を確立する。
関連論文リスト
- Asymptotic and Non-Asymptotic Convergence of AdaGrad for Non-Convex Optimization via Novel Stopping Time-based Analysis [17.34603953600226]
我々はAdaの革新的な包括的分析を導入し、文献の既存のギャップを埋める。
AdaGradの期待は、ほぼ確実に、平均的にもたらされます。
また,既存の結果と無関係に予測された平均非a-bpt-d勾配を実証した。
論文 参考訳(メタデータ) (2024-09-08T08:29:51Z) - Utilising the CLT Structure in Stochastic Gradient based Sampling :
Improved Analysis and Faster Algorithms [14.174806471635403]
粒子ダイナミック(IPD)に対するグラディエント・ランゲヴィン・ダイナミクス(SGLD)やランダムバッチ法(RBM)などのサンプリングアルゴリズムの近似を考察する。
近似によって生じる雑音は中央極限定理(CLT)によりほぼガウス的であるが、ブラウン運動はまさにガウス的である。
この構造を利用して拡散過程内の近似誤差を吸収し、これらのアルゴリズムの収束保証を改善する。
論文 参考訳(メタデータ) (2022-06-08T10:17:40Z) - Clipped Stochastic Methods for Variational Inequalities with
Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。
この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。
さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-02T15:21:55Z) - Computing the Variance of Shuffling Stochastic Gradient Algorithms via
Power Spectral Density Analysis [6.497816402045099]
理論上の利点を持つ勾配降下(SGD)の2つの一般的な選択肢は、ランダムリシャッフル(SGDRR)とシャッフルオンス(SGD-SO)である。
本研究では,SGD,SGDRR,SGD-SOの定常変動について検討した。
論文 参考訳(メタデータ) (2022-06-01T17:08:04Z) - Differential Privacy Guarantees for Stochastic Gradient Langevin
Dynamics [2.9477900773805032]
定常的なステップサイズで、スムーズかつ強凸な目標に対して、プライバシー損失は指数関数的に速く収束することを示す。
本稿では,従来のDP-SGDライブラリと比較して,本手法の実用性を示す実装を提案する。
論文 参考訳(メタデータ) (2022-01-28T08:21:31Z) - On the Convergence of mSGD and AdaGrad for Stochastic Optimization [0.696125353550498]
凸降下(SGD)は、過去10年間に機械学習に大きく開発され、広く応用されてきた。
モーメントベースのSGD(mSGD)や適応的勾配最適化(AdaGrad)など、多くの競合や応用においてSGDよりも優れている修正SGD型アルゴリズムもある。
我々は,機械学習における任意の滑らかな(不可能かもしれない)損失関数に対するmSGDとAdaGradの収束解析に着目する。
論文 参考訳(メタデータ) (2022-01-26T22:02:21Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。