論文の概要: Adam$^+$: A Stochastic Method with Adaptive Variance Reduction
- arxiv url: http://arxiv.org/abs/2011.11985v1
- Date: Tue, 24 Nov 2020 09:28:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 14:13:22.313802
- Title: Adam$^+$: A Stochastic Method with Adaptive Variance Reduction
- Title(参考訳): Adam$^+$: アダプティブ変数還元を用いた確率的手法
- Authors: Mingrui Liu, Wei Zhang, Francesco Orabona, Tianbao Yang
- Abstract要約: Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 56.051001950733315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adam is a widely used stochastic optimization method for deep learning
applications. While practitioners prefer Adam because it requires less
parameter tuning, its use is problematic from a theoretical point of view since
it may not converge. Variants of Adam have been proposed with provable
convergence guarantee, but they tend not be competitive with Adam on the
practical performance. In this paper, we propose a new method named Adam$^+$
(pronounced as Adam-plus). Adam$^+$ retains some of the key components of Adam
but it also has several noticeable differences: (i) it does not maintain the
moving average of second moment estimate but instead computes the moving
average of first moment estimate at extrapolated points; (ii) its adaptive step
size is formed not by dividing the square root of second moment estimate but
instead by dividing the root of the norm of first moment estimate. As a result,
Adam$^+$ requires few parameter tuning, as Adam, but it enjoys a provable
convergence guarantee. Our analysis further shows that Adam$^+$ enjoys adaptive
variance reduction, i.e., the variance of the stochastic gradient estimator
reduces as the algorithm converges, hence enjoying an adaptive convergence. We
also propose a more general variant of Adam$^+$ with different adaptive step
sizes and establish their fast convergence rate. Our empirical studies on
various deep learning tasks, including image classification, language modeling,
and automatic speech recognition, demonstrate that Adam$^+$ significantly
outperforms Adam and achieves comparable performance with best-tuned SGD and
momentum SGD.
- Abstract(参考訳): Adamはディープラーニングアプリケーションに広く使われている確率最適化手法である。
実践者はパラメータチューニングをあまり必要としないためAdamを好むが、その使用は理論的な観点から問題となる。
アダムの変種は証明可能な収束保証で提案されているが、実際的な性能ではアダムと競合しない傾向がある。
本稿では,Adam$^+$(Adam-plusと発音する)という新しい手法を提案する。
Adam$^+$はAdamのキーコンポーネントのいくつかを保持するが、いくつかの顕著な違いもある。
(i)第2モーメント推定の移動平均を維持しず、その代わりに外挿点における第1モーメント推定の移動平均を計算する。
(ii)その適応ステップサイズは、第2モーメント推定の平方根を割ることではなく、第1モーメント推定のノルムの根を割ることによって形成される。
その結果、Adam$^+$はAdamのようにパラメータチューニングをほとんど必要としないが、証明可能な収束を保証する。
さらに、Adam$^+$は適応的な分散還元、すなわち確率勾配推定器の分散はアルゴリズムが収束するにつれて減少し、適応収束を享受することを示す。
また,適応ステップサイズが異なるadam$^+$のより一般的な変種を提案し,その高速収束速度を確立する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$^+$がAdamを著しく上回り,最高の学習SGDと運動量SGDで同等の性能を発揮することを示した。
関連論文リスト
- On Convergence of Adam for Stochastic Optimization under Relaxed
Assumptions [4.9495085874952895]
Adaptive Momentum Estimation (Adam)アルゴリズムは、様々なディープラーニングタスクにおいて非常に効果的である。
この一般的な雑音モデルの下で,Adamは高い反復率で定常点のばらつきを見いだせることを示す。
論文 参考訳(メタデータ) (2024-02-06T13:19:26Z) - UAdam: Unified Adam-Type Algorithmic Framework for Non-Convex Stochastic
Optimization [20.399244578926474]
我々は,Adam型アルゴリズム(UAdam)の統一フレームワークを導入する。
これは、NAdamBound、AdaFom、Adanといった2階のモーメントの一般的な形式を備えている。
UAdam が定常点の近傍に収束して $mathcalO (1/T)$ となることを示す。
論文 参考訳(メタデータ) (2023-05-09T13:07:03Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - EAdam Optimizer: How $\epsilon$ Impact Adam [7.0552555621312605]
本稿では,Adamに対する定数$epsilon$の影響について論じる。
この発見に基づいて,Adam の新たな変種 EAdam を提案する。
当社の手法はAdamと比較して大幅に改善できる。
論文 参考訳(メタデータ) (2020-11-04T06:39:44Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。