論文の概要: Convergence of stochastic gradient descent schemes for
Lojasiewicz-landscapes
- arxiv url: http://arxiv.org/abs/2102.09385v3
- Date: Tue, 9 Jan 2024 16:01:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 23:21:05.813228
- Title: Convergence of stochastic gradient descent schemes for
Lojasiewicz-landscapes
- Title(参考訳): lojasiewicz-landscapesにおける確率勾配降下スキームの収束
- Authors: Steffen Dereich and Sebastian Kassing
- Abstract要約: 我々は、下層景観の弱い仮定の下で勾配降下スキームの収束を考察する。
特に、ソフトプラス、シグモイド、双曲型タンジェントなどの解析活性化機能を持つニューラルネットワークの場合、SGDは有界な状態に収束することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this article, we consider convergence of stochastic gradient descent
schemes (SGD), including momentum stochastic gradient descent (MSGD), under
weak assumptions on the underlying landscape. More explicitly, we show that on
the event that the SGD stays bounded we have convergence of the SGD if there is
only a countable number of critical points or if the objective function
satisfies Lojasiewicz-inequalities around all critical levels as all analytic
functions do. In particular, we show that for neural networks with analytic
activation function such as softplus, sigmoid and the hyperbolic tangent, SGD
converges on the event of staying bounded, if the random variables modelling
the signal and response in the training are compactly supported.
- Abstract(参考訳): 本稿では,運動量確率勾配降下 (MSGD) を含む確率勾配降下スキーム (SGD) の収束を,下層の弱い仮定の下で考察する。
より明確に言うと、SGD が有界であるとき、SGD の収束は可算個の臨界点しか存在しない場合や、目的関数がすべての解析関数のようにすべての臨界レベルに関するロジャシエヴィチ不等式を満たす場合である。
特に、ソフトプラス、シグモイド、双曲的接点などの解析活性化関数を持つニューラルネットワークの場合、SGDは、信号と訓練中の応答をモデル化するランダム変数がコンパクトに支持されている場合、持続的有界な事象に収束することを示す。
関連論文リスト
- Demystifying the Myths and Legends of Nonconvex Convergence of SGD [17.445810977264067]
勾配勾配勾配(SGD)とその変種は、大規模最適化問題の解法の主要な仕事場である。
分析として,勾配の非収束に関連する神話や伝説について考察した。
論文 参考訳(メタデータ) (2023-10-19T17:58:59Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Convergence of stochastic gradient descent under a local Lojasiewicz
condition for deep neural networks [7.9626223030099545]
局所収束の収束を正の勾配で確立する。
仮定が持つ有限幅のニューラルネットワークの例を示す。
論文 参考訳(メタデータ) (2023-04-18T18:20:52Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - On the Convergence of mSGD and AdaGrad for Stochastic Optimization [0.696125353550498]
凸降下(SGD)は、過去10年間に機械学習に大きく開発され、広く応用されてきた。
モーメントベースのSGD(mSGD)や適応的勾配最適化(AdaGrad)など、多くの競合や応用においてSGDよりも優れている修正SGD型アルゴリズムもある。
我々は,機械学習における任意の滑らかな(不可能かもしれない)損失関数に対するmSGDとAdaGradの収束解析に着目する。
論文 参考訳(メタデータ) (2022-01-26T22:02:21Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - An improved convergence analysis for decentralized online stochastic
non-convex optimization [17.386715847732468]
本稿では,GT-Loakjasiewics(GT-Loakjasiewics)と呼ばれる手法が,GT-Loakjasiewics(GT-Loakjasiewics)が現在の収束率を満たすことを示す。
結果はすぐに適用できるだけでなく、現在知られている最高の収束率にも適用できる。
論文 参考訳(メタデータ) (2020-08-10T15:29:13Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。