Fugu-MT 論文翻訳(概要): Exponential convergence rates for momentum stochastic gradient descent in the overparametrized setting

論文の概要: Exponential convergence rates for momentum stochastic gradient descent in the overparametrized setting

arxiv url: http://arxiv.org/abs/2302.03550v2
Date: Wed, 06 Nov 2024 10:19:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:28.629764
Title: Exponential convergence rates for momentum stochastic gradient descent in the overparametrized setting
Title（参考訳）: 過パラメータ設定における運動量確率勾配勾配の指数収束速度
Authors: Benjamin Gess, Sebastian Kassing,
Abstract要約: 我々は運動量勾配降下スキーム(MSGD)の収束率の有界性を証明する。摩擦の最適選択を解析し、MSGDプロセスがほぼ確実に局所に収束することを示す。
参考スコア（独自算出の注目度）: 0.6445605125467574
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We prove explicit bounds on the exponential rate of convergence for the momentum stochastic gradient descent scheme (MSGD) for arbitrary, fixed hyperparameters (learning rate, friction parameter) and its continuous-in-time counterpart in the context of non-convex optimization. In the small step-size regime and in the case of flat minima or large noise intensities, these bounds prove faster convergence of MSGD compared to plain stochastic gradient descent (SGD). The results are shown for objective functions satisfying a local Polyak-Lojasiewicz inequality and under assumptions on the variance of MSGD that are satisfied in overparametrized settings. Moreover, we analyze the optimal choice of the friction parameter and show that the MSGD process almost surely converges to a local minimum.
Abstract（参考訳）: 非凸最適化の文脈において、任意の固定されたハイパーパラメータ(学習速度、摩擦パラメータ)に対する運動量確率勾配勾配スキーム(MSGD)の指数的収束率と、その連続時間との差を明示する。ステップサイズが小さい場合や、平らなミニマや大きなノイズ強度の場合、これらの境界は、通常の確率勾配降下 (SGD) と比較してより早くMSGDの収束を証明している。その結果、局所的なポリアック・ロジャシエヴィチの不等式を満たす目的関数と過度なパラメータ設定で満たされるMSGDの分散を仮定した。さらに、摩擦パラメータの最適選択を分析し、MSGDプロセスがほぼ確実に局所的な最小値に収束することを示す。

関連論文リスト

Stochastic Optimization with Optimal Importance Sampling [49.484190237840714]
本稿では,両者の時間的分離を必要とせずに,意思決定とIS分布を共同で更新する反復型アルゴリズムを提案する。本手法は,IS分布系に対する目的的,軽度な仮定の凸性の下で,最小の変数分散を達成し,大域収束を保証する。
論文参考訳（メタデータ） (2025-04-04T16:10:18Z)
Emergence of heavy tails in homogenized stochastic gradient descent [1.450405446885067]
勾配降下(SGD)による損失は、重み付きネットワークパラメータをもたらす。我々はSGDの連続拡散近似をホモジェナイズド勾配降下(homogenized gradient descent)と呼ぶ解析を行った。最適化パラメータとテールインデックス間の相互作用を定量化する。
論文参考訳（メタデータ） (2024-02-02T13:06:33Z)
Convergence of mean-field Langevin dynamics: Time and space discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文参考訳（メタデータ） (2023-06-12T16:28:11Z)
Conservative SPDEs as fluctuating mean field limits of stochastic gradient descent [1.2031796234206138]
制限SPDEにおけるゆらぎの包含は収束率を向上し、連続極限における降下のゆらぎに関する情報を保持することが示されている。
論文参考訳（メタデータ） (2022-07-12T17:27:18Z)
Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文参考訳（メタデータ） (2021-12-29T18:46:52Z)
Convergence and Stability of the Stochastic Proximal Point Algorithm with Momentum [14.158845925610438]
運動量を持つ勾配近位アルゴリズム(PPA)は、より優れた縮退係数を持つ近位アルゴリズム(PPA)と比較して、近傍への高速収束を可能にすることを示す。
論文参考訳（メタデータ） (2021-11-11T12:17:22Z)
Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文参考訳（メタデータ） (2021-10-20T02:25:25Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文参考訳（メタデータ） (2021-06-30T17:51:36Z)
Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。この場合、最先端の結果を上回る新たな複雑さが証明される。本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文参考訳（メタデータ） (2020-05-21T17:05:27Z)
Convergence rates and approximation results for SGD and its continuous-time counterpart [16.70533901524849]
本稿では,非増加ステップサイズを有する凸勾配Descent (SGD) の完全理論的解析を提案する。まず、結合を用いた不均一微分方程式(SDE)の解により、SGDを確実に近似できることを示す。連続的手法による決定論的および最適化手法の最近の分析において, 連続過程の長期的挙動と非漸近的境界について検討する。
論文参考訳（メタデータ） (2020-04-08T18:31:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。