論文の概要: EAdam Optimizer: How $\epsilon$ Impact Adam
- arxiv url: http://arxiv.org/abs/2011.02150v1
- Date: Wed, 4 Nov 2020 06:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 21:29:54.004203
- Title: EAdam Optimizer: How $\epsilon$ Impact Adam
- Title(参考訳): eadamオプティマイザ:$\epsilon$adamのインパクト
- Authors: Wei Yuan and Kai-Xin Gao
- Abstract要約: 本稿では,Adamに対する定数$epsilon$の影響について論じる。
この発見に基づいて,Adam の新たな変種 EAdam を提案する。
当社の手法はAdamと比較して大幅に改善できる。
- 参考スコア(独自算出の注目度): 7.0552555621312605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many adaptive optimization methods have been proposed and used in deep
learning, in which Adam is regarded as the default algorithm and widely used in
many deep learning frameworks. Recently, many variants of Adam, such as
Adabound, RAdam and Adabelief, have been proposed and show better performance
than Adam. However, these variants mainly focus on changing the stepsize by
making differences on the gradient or the square of it. Motivated by the fact
that suitable damping is important for the success of powerful second-order
optimizers, we discuss the impact of the constant $\epsilon$ for Adam in this
paper. Surprisingly, we can obtain better performance than Adam simply changing
the position of $\epsilon$. Based on this finding, we propose a new variant of
Adam called EAdam, which doesn't need extra hyper-parameters or computational
costs. We also discuss the relationships and differences between our method and
Adam. Finally, we conduct extensive experiments on various popular tasks and
models. Experimental results show that our method can bring significant
improvement compared with Adam. Our code is available at
https://github.com/yuanwei2019/EAdam-optimizer.
- Abstract(参考訳): 多くの適応最適化手法がディープラーニングで提案され、Adamはデフォルトのアルゴリズムと見なされ、多くのディープラーニングフレームワークで広く使われている。
近年、Adabound、RAdam、AdabeliefなどのAdamの変種が提案され、Adamよりも優れた性能を示している。
しかし、これらの変種は主に勾配や四角形の違いによって段階的な変化に焦点をあてている。
本稿では,強力な二階最適化器の成功のために適切な減衰が重要であるという事実から,Adamの定数$\epsilon$の影響を論じる。
驚いたことに、Adam が $\epsilon$ の位置を変更するだけでより良いパフォーマンスを得ることができる。
この発見に基づいて、余分なハイパーパラメータや計算コストを必要としないEAdamと呼ばれるAdamの新しい変種を提案する。
また,本手法とAdamの関係と差異についても論じる。
最後に,様々なタスクやモデルについて広範な実験を行う。
実験の結果,本手法はadamと比較して大幅に改善できることがわかった。
私たちのコードはhttps://github.com/yuanwei2019/eadam-optimizerで利用可能です。
関連論文リスト
- An Isometric Stochastic Optimizer [0.0]
ディープラーニングアプリケーションでは、Adamが標準的な選択肢です。
それぞれのパラメータのステップサイズを、他のパラメータのノルムとは無関係にします。
パラメータの更新のノルムを、その入力と出力への線形変換の適用に不変にする新しいアプローチであるIsoを導出します。
論文 参考訳(メタデータ) (2023-07-24T17:56:58Z) - Maximizing Communication Efficiency for Large-scale Training via 0/1
Adam [49.426602335460295]
1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。
我々は2つの新しい手法により最先端の1ビットAdamを改善する0/1Adamを提案する。
論文 参考訳(メタデータ) (2022-02-12T08:02:23Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Effectiveness of Optimization Algorithms in Deep Image Classification [6.368679897630892]
新しい2つのダム、AdaBeliefとPadamがコミュニティに導入されている。
我々はこれらの2つのダムを解析し、画像分類のシナリオにおいて他の手法(Adam, SGD + Momentum)と比較する。
我々は,これらの最適化アルゴリズムの性能をAlexNet上で評価し,EMNISTデータセットを用いてVGGNet,ResNetの簡易バージョンを評価する。
論文 参考訳(メタデータ) (2021-10-04T17:50:51Z) - How Do Adam and Training Strategies Help BNNs Optimization? [50.22482900678071]
我々は、AdamがBNNの粗い損失面を扱うのに適しており、より高い一般化能力でより良い最適値に達することを示す。
我々は、既存のAdamベースの最適化に基づいて、ImageNetデータセット上で70.5%のトップ1の精度を達成する簡単なトレーニングスキームを導出する。
論文 参考訳(メタデータ) (2021-06-21T17:59:51Z) - Investigating Alternatives to the Root Mean Square for Adaptive Gradient
Methods [20.531576904743282]
Adamは適応勾配法であり、高速で信頼性の高いトレーニング性能のために広く採用されている。
最近のアプローチでは、Adamよりも大幅に改善されていないが、多くの場合、その中核的な特徴の1つ、すなわち最近の勾配のルート平均平方(RMS)による正規化を革新しないためである。
適応勾配法に対する異なる$Lp$ノルムの影響を理論的かつ実証的に初めて特徴づける。
論文 参考訳(メタデータ) (2021-06-10T01:38:37Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。