Fugu-MT 論文翻訳(概要): Understanding AdamW through Proximal Methods and Scale-Freeness

論文の概要: Understanding AdamW through Proximal Methods and Scale-Freeness

arxiv url: http://arxiv.org/abs/2202.00089v1
Date: Mon, 31 Jan 2022 21:00:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-02 15:36:08.085837
Title: Understanding AdamW through Proximal Methods and Scale-Freeness
Title（参考訳）: 近似法とスケール自由度によるAdamWの理解
Authors: Zhenxun Zhuang, Mingrui Liu, Ashok Cutkosky, Francesco Orabona
Abstract要約: Adam は $ell$ regularizer Adam-$ell$ の一般化である。 AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
参考スコア（独自算出の注目度）: 57.47324825501137
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adam has been widely adopted for training deep neural networks due to less hyperparameter tuning and remarkable performance. To improve generalization, Adam is typically used in tandem with a squared $\ell_2$ regularizer (referred to as Adam-$\ell_2$). However, even better performance can be obtained with AdamW, which decouples the gradient of the regularizer from the update rule of Adam-$\ell_2$. Yet, we are still lacking a complete explanation of the advantages of AdamW. In this paper, we tackle this question from both an optimization and an empirical point of view. First, we show how to re-interpret AdamW as an approximation of a proximal gradient method, which takes advantage of the closed-form proximal mapping of the regularizer instead of only utilizing its gradient information as in Adam-$\ell_2$. Next, we consider the property of "scale-freeness" enjoyed by AdamW and by its proximal counterpart: their updates are invariant to component-wise rescaling of the gradients. We provide empirical evidence across a wide range of deep learning experiments showing a correlation between the problems in which AdamW exhibits an advantage over Adam-$\ell_2$ and the degree to which we expect the gradients of the network to exhibit multiple scales, thus motivating the hypothesis that the advantage of AdamW could be due to the scale-free updates.
Abstract（参考訳）: adamはハイパーパラメータのチューニングが少なく、顕著なパフォーマンスのため、ディープニューラルネットワークのトレーニングに広く採用されている。一般化を改善するために、アダムは典型的には正方形の$\ell_2$正則化器(Adam-$\ell_2$)で使われる。しかし、Adam-$\ell_2$の更新ルールから正規化器の勾配を分離するAdamWにより、さらに優れたパフォーマンスが得られる。しかし、AdamWの利点についての完全な説明がまだ欠けている。本稿では,最適化と経験的視点の両方からこの問題に取り組む。まず,Adam-$\ell_2$のように勾配情報のみを利用するのではなく,正規化器の閉形式近位写像を利用する近位勾配法の近似としてAdamWを再解釈する方法を示す。次に、AdamW と近位者による「スケールフリーネス」の特性について考察する:それらの更新は勾配のコンポーネントワイズ再スケーリングに不変である。我々は,AdamWがAdam-$\ell_2$に対する優位性を示す問題と,ネットワークの勾配が複数のスケールを示すことを期待する程度との相関性を示す幅広いディープラーニング実験の実証的証拠を提供し,AdamWの利点はスケールレス更新による可能性があるという仮説を動機付けている。

関連論文リスト

Simple Convergence Proof of Adam From a Sign-like Descent Perspective [58.89890024903816]
我々は、Adamが以前の$cal O(fracln TTs14)$よりも$cal O(frac1Ts14)$の最適なレートを達成することを示す。我々の理論分析は、収束を保証する重要な要因として運動量の役割に関する新たな洞察を提供する。
論文参考訳（メタデータ） (2025-07-08T13:19:26Z)
Adam on Local Time: Addressing Nonstationarity in RL with Relative Adam Timesteps [65.64965527170156]
我々は、強化学習に広く用いられているAdam optimiserに適応する。我々は、Adam-Relがエポック内で局所的なタイムステップを使用しており、基本的にターゲット変更後のAdamのタイムステップを0にリセットしていることを示す。次に,RLにおいて勾配ノルムの増加が生じることを示すとともに,理論モデルと観測データとの差について検討する。
論文参考訳（メタデータ） (2024-12-22T18:01:08Z)
Implicit Bias of AdamW: $\ell_\infty$ Norm Constrained Optimization [5.896194021915813]
重量減衰を持つアダム(AdamW)は、言語モデリングタスクにおける優れた性能で広く評価されている。我々はAdamWの利点を理解するために、暗黙的に制約付き最適化を行うことを示す。フルバッチ設定では、AdamWが部分和が分岐する非増加学習率スケジュールに収束した場合、元の損失のKKT点に収束しなければならないことを示す。
論文参考訳（メタデータ） (2024-04-05T23:56:50Z)
Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文参考訳（メタデータ） (2022-08-21T14:57:47Z)
Maximizing Communication Efficiency for Large-scale Training via 0/1 Adam [49.426602335460295]
1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。我々は2つの新しい手法により最先端の1ビットAdamを改善する0/1Adamを提案する。
論文参考訳（メタデータ） (2022-02-12T08:02:23Z)
A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文参考訳（メタデータ） (2021-12-07T02:47:58Z)
AdamD: Improved bias-correction in Adam [0.0]
デフォルトのバイアス補正では、Adamはトレーニングの早い段階で要求された勾配更新よりも大きくなるだろう。 Adamのデフォルトの実装は、最初に提案されたバイアス補正手順と初期ステップの振る舞いのために、ハイパーパラメータ$beta_1、beta$と同等に敏感であるかもしれない。
論文参考訳（メタデータ） (2021-10-20T23:55:23Z)
Understanding the Generalization of Adam in Learning Neural Networks with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文参考訳（メタデータ） (2021-08-25T17:58:21Z)
Investigating Alternatives to the Root Mean Square for Adaptive Gradient Methods [20.531576904743282]
Adamは適応勾配法であり、高速で信頼性の高いトレーニング性能のために広く採用されている。最近のアプローチでは、Adamよりも大幅に改善されていないが、多くの場合、その中核的な特徴の1つ、すなわち最近の勾配のルート平均平方(RMS)による正規化を革新しないためである。適応勾配法に対する異なる$Lp$ノルムの影響を理論的かつ実証的に初めて特徴づける。
論文参考訳（メタデータ） (2021-06-10T01:38:37Z)
Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文参考訳（メタデータ） (2020-11-24T09:28:53Z)
EAdam Optimizer: How $\epsilon$ Impact Adam [7.0552555621312605]
本稿では,Adamに対する定数$epsilon$の影響について論じる。この発見に基づいて,Adam の新たな変種 EAdam を提案する。当社の手法はAdamと比較して大幅に改善できる。
論文参考訳（メタデータ） (2020-11-04T06:39:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。