論文の概要: EAdam Optimizer: How $\epsilon$ Impact Adam
- arxiv url: http://arxiv.org/abs/2011.02150v1
- Date: Wed, 4 Nov 2020 06:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 21:29:54.004203
- Title: EAdam Optimizer: How $\epsilon$ Impact Adam
- Title(参考訳): eadamオプティマイザ:$\epsilon$adamのインパクト
- Authors: Wei Yuan and Kai-Xin Gao
- Abstract要約: 本稿では,Adamに対する定数$epsilon$の影響について論じる。
この発見に基づいて,Adam の新たな変種 EAdam を提案する。
当社の手法はAdamと比較して大幅に改善できる。
- 参考スコア(独自算出の注目度): 7.0552555621312605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many adaptive optimization methods have been proposed and used in deep
learning, in which Adam is regarded as the default algorithm and widely used in
many deep learning frameworks. Recently, many variants of Adam, such as
Adabound, RAdam and Adabelief, have been proposed and show better performance
than Adam. However, these variants mainly focus on changing the stepsize by
making differences on the gradient or the square of it. Motivated by the fact
that suitable damping is important for the success of powerful second-order
optimizers, we discuss the impact of the constant $\epsilon$ for Adam in this
paper. Surprisingly, we can obtain better performance than Adam simply changing
the position of $\epsilon$. Based on this finding, we propose a new variant of
Adam called EAdam, which doesn't need extra hyper-parameters or computational
costs. We also discuss the relationships and differences between our method and
Adam. Finally, we conduct extensive experiments on various popular tasks and
models. Experimental results show that our method can bring significant
improvement compared with Adam. Our code is available at
https://github.com/yuanwei2019/EAdam-optimizer.
- Abstract(参考訳): 多くの適応最適化手法がディープラーニングで提案され、Adamはデフォルトのアルゴリズムと見なされ、多くのディープラーニングフレームワークで広く使われている。
近年、Adabound、RAdam、AdabeliefなどのAdamの変種が提案され、Adamよりも優れた性能を示している。
しかし、これらの変種は主に勾配や四角形の違いによって段階的な変化に焦点をあてている。
本稿では,強力な二階最適化器の成功のために適切な減衰が重要であるという事実から,Adamの定数$\epsilon$の影響を論じる。
驚いたことに、Adam が $\epsilon$ の位置を変更するだけでより良いパフォーマンスを得ることができる。
この発見に基づいて、余分なハイパーパラメータや計算コストを必要としないEAdamと呼ばれるAdamの新しい変種を提案する。
また,本手法とAdamの関係と差異についても論じる。
最後に,様々なタスクやモデルについて広範な実験を行う。
実験の結果,本手法はadamと比較して大幅に改善できることがわかった。
私たちのコードはhttps://github.com/yuanwei2019/eadam-optimizerで利用可能です。
関連論文リスト
- ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate [21.378608502899077]
本稿では,ADOPTという新しい適応勾配法を提案する。これは,有界雑音の仮定に依存することなく,$mathcalOの最適収束率を実現する。
ADOPTは、画像分類、生成モデル、自然言語処理、深層強化学習など、幅広いタスクにおいて、Adamとその変種と比較して優れた結果が得られる。
論文 参考訳(メタデータ) (2024-11-05T06:57:47Z) - Deconstructing What Makes a Good Optimizer for Language Models [7.9224468703944115]
SGD,Adafactor,Adam,Lionなどの最適化アルゴリズムを自己回帰言語モデリングの文脈で比較する。
以上の結果から,SGDを除いて,これらのアルゴリズムは最適性能の両立が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:11:40Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Effectiveness of Optimization Algorithms in Deep Image Classification [6.368679897630892]
新しい2つのダム、AdaBeliefとPadamがコミュニティに導入されている。
我々はこれらの2つのダムを解析し、画像分類のシナリオにおいて他の手法(Adam, SGD + Momentum)と比較する。
我々は,これらの最適化アルゴリズムの性能をAlexNet上で評価し,EMNISTデータセットを用いてVGGNet,ResNetの簡易バージョンを評価する。
論文 参考訳(メタデータ) (2021-10-04T17:50:51Z) - How Do Adam and Training Strategies Help BNNs Optimization? [50.22482900678071]
我々は、AdamがBNNの粗い損失面を扱うのに適しており、より高い一般化能力でより良い最適値に達することを示す。
我々は、既存のAdamベースの最適化に基づいて、ImageNetデータセット上で70.5%のトップ1の精度を達成する簡単なトレーニングスキームを導出する。
論文 参考訳(メタデータ) (2021-06-21T17:59:51Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。