論文の概要: Understanding AdamW through Proximal Methods and Scale-Freeness
- arxiv url: http://arxiv.org/abs/2202.00089v1
- Date: Mon, 31 Jan 2022 21:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 15:36:08.085837
- Title: Understanding AdamW through Proximal Methods and Scale-Freeness
- Title(参考訳): 近似法とスケール自由度によるAdamWの理解
- Authors: Zhenxun Zhuang, Mingrui Liu, Ashok Cutkosky, Francesco Orabona
- Abstract要約: Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
- 参考スコア(独自算出の注目度): 57.47324825501137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adam has been widely adopted for training deep neural networks due to less
hyperparameter tuning and remarkable performance. To improve generalization,
Adam is typically used in tandem with a squared $\ell_2$ regularizer (referred
to as Adam-$\ell_2$). However, even better performance can be obtained with
AdamW, which decouples the gradient of the regularizer from the update rule of
Adam-$\ell_2$. Yet, we are still lacking a complete explanation of the
advantages of AdamW. In this paper, we tackle this question from both an
optimization and an empirical point of view. First, we show how to re-interpret
AdamW as an approximation of a proximal gradient method, which takes advantage
of the closed-form proximal mapping of the regularizer instead of only
utilizing its gradient information as in Adam-$\ell_2$. Next, we consider the
property of "scale-freeness" enjoyed by AdamW and by its proximal counterpart:
their updates are invariant to component-wise rescaling of the gradients. We
provide empirical evidence across a wide range of deep learning experiments
showing a correlation between the problems in which AdamW exhibits an advantage
over Adam-$\ell_2$ and the degree to which we expect the gradients of the
network to exhibit multiple scales, thus motivating the hypothesis that the
advantage of AdamW could be due to the scale-free updates.
- Abstract(参考訳): adamはハイパーパラメータのチューニングが少なく、顕著なパフォーマンスのため、ディープニューラルネットワークのトレーニングに広く採用されている。
一般化を改善するために、アダムは典型的には正方形の$\ell_2$正則化器(Adam-$\ell_2$)で使われる。
しかし、Adam-$\ell_2$の更新ルールから正規化器の勾配を分離するAdamWにより、さらに優れたパフォーマンスが得られる。
しかし、AdamWの利点についての完全な説明がまだ欠けている。
本稿では,最適化と経験的視点の両方からこの問題に取り組む。
まず,Adam-$\ell_2$のように勾配情報のみを利用するのではなく,正規化器の閉形式近位写像を利用する近位勾配法の近似としてAdamWを再解釈する方法を示す。
次に、AdamW と近位者による「スケールフリーネス」の特性について考察する:それらの更新は勾配のコンポーネントワイズ再スケーリングに不変である。
我々は,AdamWがAdam-$\ell_2$に対する優位性を示す問題と,ネットワークの勾配が複数のスケールを示すことを期待する程度との相関性を示す幅広いディープラーニング実験の実証的証拠を提供し,AdamWの利点はスケールレス更新による可能性があるという仮説を動機付けている。
関連論文リスト
- Implicit Bias of AdamW: $\ell_\infty$ Norm Constrained Optimization [5.896194021915813]
重量減衰を持つアダム(AdamW)は、言語モデリングタスクにおける優れた性能で広く評価されている。
我々はAdamWの利点を理解するために、暗黙的に制約付き最適化を行うことを示す。
フルバッチ設定では、AdamWが部分和が分岐する非増加学習率スケジュールに収束した場合、元の損失のKKT点に収束しなければならないことを示す。
論文 参考訳(メタデータ) (2024-04-05T23:56:50Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Maximizing Communication Efficiency for Large-scale Training via 0/1
Adam [49.426602335460295]
1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。
我々は2つの新しい手法により最先端の1ビットAdamを改善する0/1Adamを提案する。
論文 参考訳(メタデータ) (2022-02-12T08:02:23Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Investigating Alternatives to the Root Mean Square for Adaptive Gradient
Methods [20.531576904743282]
Adamは適応勾配法であり、高速で信頼性の高いトレーニング性能のために広く採用されている。
最近のアプローチでは、Adamよりも大幅に改善されていないが、多くの場合、その中核的な特徴の1つ、すなわち最近の勾配のルート平均平方(RMS)による正規化を革新しないためである。
適応勾配法に対する異なる$Lp$ノルムの影響を理論的かつ実証的に初めて特徴づける。
論文 参考訳(メタデータ) (2021-06-10T01:38:37Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - EAdam Optimizer: How $\epsilon$ Impact Adam [7.0552555621312605]
本稿では,Adamに対する定数$epsilon$の影響について論じる。
この発見に基づいて,Adam の新たな変種 EAdam を提案する。
当社の手法はAdamと比較して大幅に改善できる。
論文 参考訳(メタデータ) (2020-11-04T06:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。