Fugu-MT 論文翻訳(概要): Convergence of SGD with momentum in the nonconvex case: A time window-based analysis

論文の概要: Convergence of SGD with momentum in the nonconvex case: A time window-based analysis

arxiv url: http://arxiv.org/abs/2405.16954v2
Date: Sun, 23 Jun 2024 12:34:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 00:33:22.473572
Title: Convergence of SGD with momentum in the nonconvex case: A time window-based analysis
Title（参考訳）: 非凸の場合の運動量によるSGDの収束:時間窓による解析
Authors: Junwen Qiu, Bohao Ma, Andre Milzarek,
Abstract要約: 本研究では, 時間窓を用いた解析手法を提案し, 非設定条件下での運動量による勾配降下法(SGDM)の収束について検討する。
参考スコア（独自算出の注目度）: 2.048226951354646
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a novel time window-based analysis technique to investigate the convergence properties of the stochastic gradient descent method with momentum (SGDM) in nonconvex settings. Despite its popularity, the convergence behavior of SGDM remains less understood in nonconvex scenarios. This is primarily due to the absence of a sufficient descent property and challenges in simultaneously controlling the momentum and stochastic errors in an almost sure sense. To address these challenges, we investigate the behavior of SGDM over specific time windows, rather than examining the descent of consecutive iterates as in traditional studies. This time window-based approach simplifies the convergence analysis and enables us to establish the first iterate convergence result for SGDM under the Kurdyka-Lojasiewicz (KL) property. We further provide local convergence rates which depend on the underlying KL exponent and the utilized step size schemes.
Abstract（参考訳）: 非凸条件下での運動量を有する確率勾配降下法(SGDM)の収束特性を解析するための時間窓解析手法を提案する。その人気にもかかわらず、SGDMの収束挙動は、非凸シナリオでは理解されていない。これは主に十分な降下特性が欠如していることと、ほぼ確実な意味で運動量と確率誤差を同時に制御することの難しさが原因である。これらの課題に対処するために、従来の研究のように連続的な反復音の降下を調べるのではなく、特定の時間窓上でのSGDMの挙動を調査する。この時間窓ベースのアプローチは収束解析を単純化し、カルディカ・ロジャシエヴィチ(KL)特性の下でSGDMに対する最初の反復収束結果を確立することができる。さらに、基礎となるKL指数と利用したステップサイズスキームに依存する局所収束率を提供する。

関連論文リスト

Controlling the Flow: Stability and Convergence for Stochastic Gradient Descent with Decaying Regularization [0.40964539027092917]
我々は、余分な有界性仮定を伴わない元の問題の最小ノルム解に対して、reg-SGDの強い収束性を証明する。分析の結果,Tikhonov正則化がSGDの流れを制御し,安定した学習力学が得られることがわかった。
論文参考訳（メタデータ） (2025-05-16T16:53:49Z)
Algorithmic Stability of Stochastic Gradient Descent with Momentum under Heavy-Tailed Noise [20.922456964393213]
重み付き雑音下での運動量(SGDm)を持つSGDの一般化境界を確立する。二次損失関数に対して、SGDm は運動量や重みのあるテールの存在においてより悪い一般化を持つことを示す。我々の知る限り、縮退した雑音を持つSDEにおいて、その種類の最初の結果となる一様時間離散化誤差境界を開発する。
論文参考訳（メタデータ） (2025-02-02T19:25:48Z)
Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文参考訳（メタデータ） (2024-06-17T02:56:55Z)
Faster Convergence of Stochastic Accelerated Gradient Descent under Interpolation [51.248784084461334]
我々はNesterov加速度アンダーホ条件の一般化版に対する新しい収束率を証明した。本分析により, 従来の研究に比べて, 強い成長定数への依存度を$$$から$sqrt$に下げることができた。
論文参考訳（メタデータ） (2024-04-03T00:41:19Z)
On the Convergence of Adam under Non-uniform Smoothness: Separability from SGDM and Beyond [35.65852208995095]
我々は,非一様有界な滑らかさの条件下で,AdamがSGDMよりも高速な収束を実現することを示した。その結果,(1)決定論的環境下では,Adamは決定論的一階の収束率の既知下限を達成でき,一方,GDM(Gradient Descent with Momentum)の収束率は初期関数値に高い順序依存性を持つことがわかった。
論文参考訳（メタデータ） (2024-03-22T11:57:51Z)
From Gradient Flow on Population Loss to Learning with Stochastic Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文参考訳（メタデータ） (2022-10-13T03:55:04Z)
Stability and Generalization Analysis of Gradient Methods for Shallow Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文参考訳（メタデータ） (2022-09-19T18:48:00Z)
Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文参考訳（メタデータ） (2022-02-27T13:25:01Z)
On the Convergence of mSGD and AdaGrad for Stochastic Optimization [0.696125353550498]
凸降下(SGD)は、過去10年間に機械学習に大きく開発され、広く応用されてきた。モーメントベースのSGD(mSGD)や適応的勾配最適化(AdaGrad)など、多くの競合や応用においてSGDよりも優れている修正SGD型アルゴリズムもある。我々は,機械学習における任意の滑らかな(不可能かもしれない)損失関数に対するmSGDとAdaGradの収束解析に着目する。
論文参考訳（メタデータ） (2022-01-26T22:02:21Z)
Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文参考訳（メタデータ） (2021-06-30T18:32:46Z)
Convergence of stochastic gradient descent schemes for Lojasiewicz-landscapes [0.0]
我々は、下層景観の弱い仮定の下で勾配降下スキームの収束を考察する。特に、ソフトプラス、シグモイド、双曲型タンジェントなどの解析活性化機能を持つニューラルネットワークの場合、SGDは有界な状態に収束することを示す。
論文参考訳（メタデータ） (2021-02-16T12:42:25Z)
Momentum via Primal Averaging: Theoretical Insights and Learning Rate Schedules for Non-Convex Optimization [10.660480034605241]
ディープニューラルネットワークのような非トレーニングモデルのために、機械学習コミュニティ内で広く使用されている。本研究では、SGDSPA(SGDSPA)形式のSGD等価な書き直しを利用して、運動量を持つSGDのリアプノフ解析を開発する。
論文参考訳（メタデータ） (2020-10-01T13:46:32Z)
Convergence rates and approximation results for SGD and its continuous-time counterpart [16.70533901524849]
本稿では,非増加ステップサイズを有する凸勾配Descent (SGD) の完全理論的解析を提案する。まず、結合を用いた不均一微分方程式(SDE)の解により、SGDを確実に近似できることを示す。連続的手法による決定論的および最適化手法の最近の分析において, 連続過程の長期的挙動と非漸近的境界について検討する。
論文参考訳（メタデータ） (2020-04-08T18:31:34Z)
On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文参考訳（メタデータ） (2018-09-12T17:02:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。