論文の概要: Convergence of SGD with momentum in the nonconvex case: A novel time window-based analysis
- arxiv url: http://arxiv.org/abs/2405.16954v1
- Date: Mon, 27 May 2024 08:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 16:21:29.708366
- Title: Convergence of SGD with momentum in the nonconvex case: A novel time window-based analysis
- Title(参考訳): 非凸領域における運動量を伴うSGDの収束:新しい時間窓解析
- Authors: Junwen Qiu, Bohao Ma, Andre Milzarek,
- Abstract要約: モーメントを伴う勾配降下法の収束挙動を解析するための時間窓に基づく新しい解析手法を提案する。
我々は、Kka-Lojasiewicz (KL) 特性の下でSGDMの最初の反復結果を確立する。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel time window-based analysis technique to investigate the convergence behavior of the stochastic gradient descent method with momentum (SGDM) in nonconvex settings. Despite its popularity, the convergence behavior of SGDM remains less understood in nonconvex scenarios. This is primarily due to the absence of a sufficient descent property and challenges in controlling stochastic errors in an almost sure sense. To address these challenges, we study the behavior of SGDM over specific time windows, rather than examining the descent of consecutive iterates as in traditional analyses. This time window-based approach simplifies the convergence analysis and enables us to establish the first iterate convergence result for SGDM under the Kurdyka-Lojasiewicz (KL) property. Based on the underlying KL exponent and the utilized step size scheme, we further characterize local convergence rates of SGDM.
- Abstract(参考訳): 非凸条件下での運動量を伴う確率勾配降下法(SGDM)の収束挙動を解析するための時間窓解析手法を提案する。
その人気にもかかわらず、SGDMの収束挙動は、非凸シナリオでは理解されていない。
これは主に、十分な降下特性が欠如していることと、確率的誤差をほぼ確実な意味で制御することの難しさが原因である。
これらの課題に対処するために、従来の分析のように連続的な反復音の降下を調べるのではなく、特定の時間窓上でのSGDMの挙動について検討する。
この時間窓ベースのアプローチは収束解析を単純化し、カルディカ・ロジャシエヴィチ(KL)特性の下でSGDMに対する最初の反復収束結果を確立することができる。
基礎となるKL指数と利用ステップサイズスキームに基づいて、SGDMの局所収束率をさらに特徴付ける。
関連論文リスト
- Algorithmic Stability of Stochastic Gradient Descent with Momentum under Heavy-Tailed Noise [20.922456964393213]
重み付き雑音下での運動量(SGDm)を持つSGDの一般化境界を確立する。
二次損失関数に対して、SGDm は運動量や重みのあるテールの存在においてより悪い一般化を持つことを示す。
我々の知る限り、縮退した雑音を持つSDEにおいて、その種類の最初の結果となる一様時間離散化誤差境界を開発する。
論文 参考訳(メタデータ) (2025-02-02T19:25:48Z) - Faster Convergence of Stochastic Accelerated Gradient Descent under Interpolation [51.248784084461334]
我々はNesterov加速度アンダーホ条件の一般化版に対する新しい収束率を証明した。
本分析により, 従来の研究に比べて, 強い成長定数への依存度を$$$から$sqrt$に下げることができた。
論文 参考訳(メタデータ) (2024-04-03T00:41:19Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - On the Convergence of mSGD and AdaGrad for Stochastic Optimization [0.696125353550498]
凸降下(SGD)は、過去10年間に機械学習に大きく開発され、広く応用されてきた。
モーメントベースのSGD(mSGD)や適応的勾配最適化(AdaGrad)など、多くの競合や応用においてSGDよりも優れている修正SGD型アルゴリズムもある。
我々は,機械学習における任意の滑らかな(不可能かもしれない)損失関数に対するmSGDとAdaGradの収束解析に着目する。
論文 参考訳(メタデータ) (2022-01-26T22:02:21Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - Convergence of stochastic gradient descent schemes for
Lojasiewicz-landscapes [0.0]
我々は、下層景観の弱い仮定の下で勾配降下スキームの収束を考察する。
特に、ソフトプラス、シグモイド、双曲型タンジェントなどの解析活性化機能を持つニューラルネットワークの場合、SGDは有界な状態に収束することを示す。
論文 参考訳(メタデータ) (2021-02-16T12:42:25Z) - Momentum via Primal Averaging: Theoretical Insights and Learning Rate
Schedules for Non-Convex Optimization [10.660480034605241]
ディープニューラルネットワークのような非トレーニングモデルのために、機械学習コミュニティ内で広く使用されている。
本研究では、SGDSPA(SGDSPA)形式のSGD等価な書き直しを利用して、運動量を持つSGDのリアプノフ解析を開発する。
論文 参考訳(メタデータ) (2020-10-01T13:46:32Z) - Convergence rates and approximation results for SGD and its
continuous-time counterpart [16.70533901524849]
本稿では,非増加ステップサイズを有する凸勾配Descent (SGD) の完全理論的解析を提案する。
まず、結合を用いた不均一微分方程式(SDE)の解により、SGDを確実に近似できることを示す。
連続的手法による決定論的および最適化手法の最近の分析において, 連続過程の長期的挙動と非漸近的境界について検討する。
論文 参考訳(メタデータ) (2020-04-08T18:31:34Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。