論文の概要: Almost sure convergence rates of stochastic gradient methods under gradient domination
- arxiv url: http://arxiv.org/abs/2405.13592v2
- Date: Mon, 27 May 2024 09:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 03:08:56.491707
- Title: Almost sure convergence rates of stochastic gradient methods under gradient domination
- Title(参考訳): 勾配支配下の確率勾配法のほぼ確実に収束率
- Authors: Simon Weissmann, Sara Klein, Waïss Azizian, Leif Döring,
- Abstract要約: 大域的および局所的な勾配支配特性は、強い凸性のより現実的な置き換えであることが示されている。
収束率 $f(X_n)-f*in obig(n-frac14beta-1+epsilonbig)$ は勾配降下の最終反復である。
教師付き学習と強化学習の両方において,本研究結果をトレーニングタスクに適用する方法を示す。
- 参考スコア(独自算出の注目度): 2.96614015844317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient methods are among the most important algorithms in training machine learning problems. While classical assumptions such as strong convexity allow a simple analysis they are rarely satisfied in applications. In recent years, global and local gradient domination properties have shown to be a more realistic replacement of strong convexity. They were proved to hold in diverse settings such as (simple) policy gradient methods in reinforcement learning and training of deep neural networks with analytic activation functions. We prove almost sure convergence rates $f(X_n)-f^*\in o\big( n^{-\frac{1}{4\beta-1}+\epsilon}\big)$ of the last iterate for stochastic gradient descent (with and without momentum) under global and local $\beta$-gradient domination assumptions. The almost sure rates get arbitrarily close to recent rates in expectation. Finally, we demonstrate how to apply our results to the training task in both supervised and reinforcement learning.
- Abstract(参考訳): 確率勾配法は、機械学習問題を訓練する上で最も重要なアルゴリズムの一つである。
強い凸性のような古典的な仮定は単純な解析を可能にするが、応用において満たされることはめったにない。
近年,大域的および局所的な勾配支配特性は,強い凸性のより現実的な置き換えであることが示されている。
それらは、強化学習における(単純な)ポリシー勾配法や、分析活性化関数を持つディープニューラルネットワークの訓練など、多様な設定で保持されていることが証明された。
収束率 $f(X_n)-f^*\in o\big(n^{-\frac{1}{4\beta-1}+\epsilon}\big)$ は、大域的および局所的な$\beta$-次支配仮定の下での確率的勾配降下(運動量なし)に対する最後のイテレートである。
ほぼ確実なレートは、予想される最近のレートに任意に近づく。
最後に,教師付き学習と強化学習の両方において,実験結果をトレーニングタスクに適用する方法を示す。
関連論文リスト
- Extended convexity and smoothness and their applications in deep learning [0.0]
本稿では,非完全に理解された勾配と強い凸性に対する$mathcal$H$smoothnessアルゴリズムを提案する。
提案手法の有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-10-08T08:40:07Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Sample Efficient Reinforcement Learning with REINFORCE [10.884278019498588]
本稿では,古典的政策勾配法と広く用いられているREINFORCE推定手法について考察する。
悪い」エピソードの数を制御することによって、常にサブリニアな高い後悔の束縛を確立し、平均的後悔のグローバル収束を、アナルなサブリニアレートでほぼ確実に確立する。
これらのアルゴリズムは、よく知られたREINFORCEアルゴリズムに対して、グローバル収束とサンプル効率の最初のセットを提供し、実際にの性能をよりよく理解するのに貢献する。
論文 参考訳(メタデータ) (2020-10-22T01:02:55Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。