論文の概要: Exponential convergence rates for momentum stochastic gradient descent in the overparametrized setting
- arxiv url: http://arxiv.org/abs/2302.03550v2
- Date: Wed, 06 Nov 2024 10:19:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:21:13.401756
- Title: Exponential convergence rates for momentum stochastic gradient descent in the overparametrized setting
- Title(参考訳): 過パラメータ設定における運動量確率勾配勾配の指数収束速度
- Authors: Benjamin Gess, Sebastian Kassing,
- Abstract要約: 我々は運動量勾配降下スキーム(MSGD)の収束率の有界性を証明する。
摩擦の最適選択を解析し、MSGDプロセスがほぼ確実に局所に収束することを示す。
- 参考スコア(独自算出の注目度): 0.6445605125467574
- License:
- Abstract: We prove explicit bounds on the exponential rate of convergence for the momentum stochastic gradient descent scheme (MSGD) for arbitrary, fixed hyperparameters (learning rate, friction parameter) and its continuous-in-time counterpart in the context of non-convex optimization. In the small step-size regime and in the case of flat minima or large noise intensities, these bounds prove faster convergence of MSGD compared to plain stochastic gradient descent (SGD). The results are shown for objective functions satisfying a local Polyak-Lojasiewicz inequality and under assumptions on the variance of MSGD that are satisfied in overparametrized settings. Moreover, we analyze the optimal choice of the friction parameter and show that the MSGD process almost surely converges to a local minimum.
- Abstract(参考訳): 非凸最適化の文脈において、任意の固定されたハイパーパラメータ(学習速度、摩擦パラメータ)に対する運動量確率勾配勾配スキーム(MSGD)の指数的収束率と、その連続時間との差を明示する。
ステップサイズが小さい場合や、平らなミニマや大きなノイズ強度の場合、これらの境界は、通常の確率勾配降下 (SGD) と比較してより早くMSGDの収束を証明している。
その結果、局所的なポリアック・ロジャシエヴィチの不等式を満たす目的関数と過度なパラメータ設定で満たされるMSGDの分散を仮定した。
さらに、摩擦パラメータの最適選択を分析し、MSGDプロセスがほぼ確実に局所的な最小値に収束することを示す。
関連論文リスト
- Emergence of heavy tails in homogenized stochastic gradient descent [1.450405446885067]
勾配降下(SGD)による損失は、重み付きネットワークパラメータをもたらす。
我々はSGDの連続拡散近似をホモジェナイズド勾配降下(homogenized gradient descent)と呼ぶ解析を行った。
最適化パラメータとテールインデックス間の相互作用を定量化する。
論文 参考訳(メタデータ) (2024-02-02T13:06:33Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Conservative SPDEs as fluctuating mean field limits of stochastic
gradient descent [1.2031796234206138]
制限SPDEにおけるゆらぎの包含は収束率を向上し、連続極限における降下のゆらぎに関する情報を保持することが示されている。
論文 参考訳(メタデータ) (2022-07-12T17:27:18Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - Convergence and Stability of the Stochastic Proximal Point Algorithm
with Momentum [14.158845925610438]
運動量を持つ勾配近位アルゴリズム(PPA)は、より優れた縮退係数を持つ近位アルゴリズム(PPA)と比較して、近傍への高速収束を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-11T12:17:22Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient
Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。
この場合、最先端の結果を上回る新たな複雑さが証明される。
本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文 参考訳(メタデータ) (2020-05-21T17:05:27Z) - Convergence rates and approximation results for SGD and its
continuous-time counterpart [16.70533901524849]
本稿では,非増加ステップサイズを有する凸勾配Descent (SGD) の完全理論的解析を提案する。
まず、結合を用いた不均一微分方程式(SDE)の解により、SGDを確実に近似できることを示す。
連続的手法による決定論的および最適化手法の最近の分析において, 連続過程の長期的挙動と非漸近的境界について検討する。
論文 参考訳(メタデータ) (2020-04-08T18:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。