論文の概要: The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded
Gradients and Affine Variance
- arxiv url: http://arxiv.org/abs/2202.05791v1
- Date: Fri, 11 Feb 2022 17:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 14:50:45.512169
- Title: The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded
Gradients and Affine Variance
- Title(参考訳): SGDにおける適応性のパワー:非有界勾配とアフィン変動を考慮した自己調整ステップサイズ
- Authors: Matthew Faw, Isidoros Tziotis, Constantine Caramanis, Aryan Mokhtari,
Sanjay Shakkottai, Rachel Ward
- Abstract要約: AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
- 参考スコア(独自算出の注目度): 46.15915820243487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study convergence rates of AdaGrad-Norm as an exemplar of adaptive
stochastic gradient methods (SGD), where the step sizes change based on
observed stochastic gradients, for minimizing non-convex, smooth objectives.
Despite their popularity, the analysis of adaptive SGD lags behind that of non
adaptive methods in this setting. Specifically, all prior works rely on some
subset of the following assumptions: (i) uniformly-bounded gradient norms, (ii)
uniformly-bounded stochastic gradient variance (or even noise support), (iii)
conditional independence between the step size and stochastic gradient. In this
work, we show that AdaGrad-Norm exhibits an order optimal convergence rate of
$\mathcal{O}\left(\frac{\mathrm{poly}\log(T)}{\sqrt{T}}\right)$ after $T$
iterations under the same assumptions as optimally-tuned non adaptive SGD
(unbounded gradient norms and affine noise variance scaling), and crucially,
without needing any tuning parameters. We thus establish that adaptive gradient
methods exhibit order-optimal convergence in much broader regimes than
previously understood.
- Abstract(参考訳): 適応確率勾配法(adaptive stochastic gradient method, sgd)の例であるadagrad-normの収束速度について検討し, 非凸な滑らかな目的を最小化するために, 観測された確率勾配に基づいてステップサイズが変化する。
その人気にもかかわらず、適応型sgdの分析は、この設定における非適応型手法のそれよりも遅れている。
具体的には、すべての先行作品は以下の仮定のいくつかの部分集合に依存している。
(i)一様有界勾配ノルム
(二)一様有界確率勾配分散(又は雑音支援)
(iii)ステップサイズと確率勾配の条件依存。
そこで本研究では,アダグラードノルムが最適な最適収束率である$\mathcal{o}\left(\frac{\mathrm{poly}\log(t)}{\sqrt{t}}\right)$を,最適に調整された非適応型sgd (unbounded gradient norms and affine noise variance scaling) と同じ仮定の下で与える。
そこで,適応勾配法は従来よりはるかに広い状況下で順序-最適収束を示すことを示す。
関連論文リスト
- Convergence Analysis of Adaptive Gradient Methods under Refined Smoothness and Noise Assumptions [18.47705532817026]
AdaGradは特定の条件下では$d$でSGDより優れていることを示す。
これを動機として、目的物の滑らかさ構造と勾配のばらつきを仮定する。
論文 参考訳(メタデータ) (2024-06-07T02:55:57Z) - Directional Smoothness and Gradient Methods: Convergence and Adaptivity [16.779513676120096]
我々は、最適化の経路に沿った目的の条件付けに依存する勾配降下に対する新しい準最適境界を開発する。
我々の証明の鍵となるのは方向の滑らかさであり、これは、目的の上のバウンドを開発するために使用する勾配変動の尺度である。
我々は,方向の滑らかさの知識を使わずとも,ポリアクのステップサイズと正規化GDが高速で経路依存の速度を得ることを示した。
論文 参考訳(メタデータ) (2024-03-06T22:24:05Z) - Adaptive Step Sizes for Preconditioned Stochastic Gradient Descent [0.3831327965422187]
本稿では,勾配降下(SGD)における適応ステップサイズに対する新しいアプローチを提案する。
我々は、勾配に対するリプシッツ定数と探索方向の局所的分散の概念という、数値的にトレース可能な量を用いる。
論文 参考訳(メタデータ) (2023-11-28T17:03:56Z) - Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。
最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文 参考訳(メタデータ) (2023-06-02T04:21:59Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Adaptive Gradient Methods Converge Faster with Over-Parameterization
(but you should do a line-search) [32.24244211281863]
データを補間するのに十分なパラメータ化モデルを用いて、スムーズで凸的な損失を簡易に設定する。
一定のステップサイズと運動量を持つ AMSGrad がより高速な$O(1/T)$レートで最小値に収束することを証明する。
これらの手法により,タスク間の適応勾配法の収束と一般化が向上することを示す。
論文 参考訳(メタデータ) (2020-06-11T21:23:30Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z) - On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。
解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文 参考訳(メタデータ) (2018-08-16T20:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。