論文の概要: A Unified Analysis of AdaGrad with Weighted Aggregation and Momentum
Acceleration
- arxiv url: http://arxiv.org/abs/1808.03408v4
- Date: Mon, 15 May 2023 13:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 02:16:22.260051
- Title: A Unified Analysis of AdaGrad with Weighted Aggregation and Momentum
Acceleration
- Title(参考訳): 軽量アグリゲーションとモーメント・アクセラレーションを用いたAdaGradの統一解析
- Authors: Li Shen, Congliang Chen, Fangyu Zou, Zequn Jie, Ju Sun and Wei Liu
- Abstract要約: 適応学習率の統合。
SGDのテクニックは、大きなものにつながります。
AdaGradやAdamのような適応アルゴリズムを効率的に高速化する。
AdaProp、Adam、AccAdaProp、Adam、RMSTOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO
- 参考スコア(独自算出の注目度): 21.929334023875874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating adaptive learning rate and momentum techniques into SGD leads to
a large class of efficiently accelerated adaptive stochastic algorithms, such
as AdaGrad, RMSProp, Adam, AccAdaGrad, \textit{etc}. In spite of their
effectiveness in practice, there is still a large gap in their theories of
convergences, especially in the difficult non-convex stochastic setting. To
fill this gap, we propose \emph{weighted AdaGrad with unified momentum}, dubbed
AdaUSM, which has the main characteristics that (1) it incorporates a unified
momentum scheme which covers both the heavy ball momentum and the Nesterov
accelerated gradient momentum; (2) it adopts a novel weighted adaptive learning
rate that can unify the learning rates of AdaGrad, AccAdaGrad, Adam, and
RMSProp. Moreover, when we take polynomially growing weights in AdaUSM, we
obtain its $\mathcal{O}(\log(T)/\sqrt{T})$ convergence rate in the non-convex
stochastic setting. We also show that the adaptive learning rates of Adam and
RMSProp correspond to taking exponentially growing weights in AdaUSM, thereby
providing a new perspective for understanding Adam and RMSProp. Lastly,
comparative experiments of AdaUSM against SGD with momentum, AdaGrad, AdaEMA,
Adam, and AMSGrad on various deep learning models and datasets are also carried
out.
- Abstract(参考訳): 適応学習率と運動量法をSGDに統合すると、AdaGrad, RMSProp, Adam, AccAdaGrad, \textit{etc} などの適応確率的アルゴリズムが効率的に高速化される。
実効性はあるものの、収束の理論には依然として大きなギャップがあり、特に難しい非凸確率的設定では大きなギャップがある。
このギャップを埋めるために, (1) 重球運動量とネステロフ加速度勾配運動量の両方をカバーする統一運動量スキームを取り入れ, (2) アダグラード, アッカダグラード, アダム, rmsprop の学習率を統一化できる新しい重み付き適応学習率を採用している,という特徴を持つ, adausm とよばれる \emph{weighted adagrad with unified momentum} を提案する。
さらに、AdaUSM において多項式的に成長する重みを取ると、非凸確率環境における$\mathcal{O}(\log(T)/\sqrt{T})$収束率を得る。
また,adam と rmsprop の適応学習速度は, 指数関数的に増大する adausm に対応するため, adam と rmsprop を理解するための新しい視点を提供する。
最後に、様々なディープラーニングモデルとデータセットに関するAdaUSMとSGDの比較実験、AdaGrad、AdaEMA、Adam、AMSGradの比較を行った。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - A Multi-Grained Symmetric Differential Equation Model for Learning Protein-Ligand Binding Dynamics [73.35846234413611]
薬物発見において、分子動力学(MD)シミュレーションは、結合親和性を予測し、輸送特性を推定し、ポケットサイトを探索する強力なツールを提供する。
我々は,数値MDを容易にし,タンパク質-リガンド結合ダイナミクスの正確なシミュレーションを提供する,最初の機械学習サロゲートであるNeuralMDを提案する。
従来の数値MDシミュレーションと比較して1K$times$ Speedupを実現することにより,NeuralMDの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-01-26T09:35:17Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Training Deep Neural Networks with Adaptive Momentum Inspired by the
Quadratic Optimization [20.782428252187024]
重球運動量の最適選択に着想を得た新しい適応運動量を提案する。
提案した適応重球運動量は勾配降下(SGD)とアダムを改善することができる。
我々は、画像分類、言語モデリング、機械翻訳を含む幅広い機械学習ベンチマークにおいて、SGDとAdamの効率を新しい適応運動量で検証する。
論文 参考訳(メタデータ) (2021-10-18T07:03:48Z) - Generalized AdaGrad (G-AdaGrad) and Adam: A State-Space Perspective [0.0]
非機械学習問題の解法として,高速で一般化されたAdaGrad(G-AdaGrad)を提案する。
具体的には、G-AdaGradとAdamという収束加速アルゴリズムを解析するために状態空間の視点を採用する。
論文 参考訳(メタデータ) (2021-05-31T20:30:25Z) - Adam revisited: a weighted past gradients perspective [57.54752290924522]
本稿では,非収束問題に取り組むための適応法重み付け適応アルゴリズム(wada)を提案する。
私たちは、WADAが重み付きデータ依存の後悔境界を達成できることを証明します。
論文 参考訳(メタデータ) (2021-01-01T14:01:52Z) - Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate
and Momentum [97.84312669132716]
我々は,アダム力学の適応学習率とモメンタムがサドルポイントエスケープおよびフラットミニマ選択に与える影響を解消する。
提案手法は,SGD法や従来の適応勾配法よりも大幅に一般化可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T05:21:02Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Fractional Underdamped Langevin Dynamics: Retargeting SGD with Momentum
under Heavy-Tailed Gradient Noise [39.9241638707715]
FULDは, 深層学習における役割において, 自然的, エレガントな手法と類似性があることが示唆された。
論文 参考訳(メタデータ) (2020-02-13T18:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。