論文の概要: Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate
and Momentum
- arxiv url: http://arxiv.org/abs/2006.15815v11
- Date: Sun, 7 Feb 2021 11:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 13:37:43.205505
- Title: Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate
and Momentum
- Title(参考訳): アダプティブ慣性:適応学習速度と運動量の影響を解消する
- Authors: Zeke Xie, Xinrui Wang, Huishuai Zhang, Issei Sato, Masashi Sugiyama
- Abstract要約: 我々は,アダム力学の適応学習率とモメンタムがサドルポイントエスケープおよびフラットミニマ選択に与える影響を解消する。
提案手法は,SGD法や従来の適応勾配法よりも大幅に一般化可能であることを示す。
- 参考スコア(独自算出の注目度): 97.84312669132716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive Moment Estimation (Adam), which combines Adaptive Learning Rate and
Momentum, would be the most popular stochastic optimizer for accelerating the
training of deep neural networks. However, it is empirically known that Adam
often generalizes worse than Stochastic Gradient Descent (SGD). The purpose of
this paper is to unveil the mystery of this behavior in the diffusion
theoretical framework. Specifically, we disentangle the effects of Adaptive
Learning Rate and Momentum of the Adam dynamics on saddle-point escaping and
flat minima selection. We prove that Adaptive Learning Rate can escape saddle
points efficiently, but cannot select flat minima as SGD does. In contrast,
Momentum provides a drift effect to help the training process pass through
saddle points, and almost does not affect flat minima selection. This partly
explains why SGD (with Momentum) generalizes better, while Adam generalizes
worse but converges faster. Furthermore, motivated by the analysis, we design a
novel adaptive optimization framework named Adaptive Inertia, which uses
parameter-wise adaptive inertia to accelerate the training and provably favors
flat minima as well as SGD. Our extensive experiments demonstrate that the
proposed adaptive inertia method can generalize significantly better than SGD
and conventional adaptive gradient methods.
- Abstract(参考訳): Adaptive Moment Estimation (Adam)は、Adaptive Learning RateとMomentumを組み合わせることで、ディープニューラルネットワークのトレーニングを加速するための最も一般的な確率最適化である。
しかし、アダムがSGD (Stochastic Gradient Descent) よりも悪くなることは経験的に知られている。
本研究の目的は, この現象の謎を拡散理論の枠組みで明らかにすることである。
具体的には,適応学習速度とadam dynamicsの運動量の違いがサドルポイントエスケープと平たいミニマ選択に与える影響について考察した。
適応学習速度は,サドルポイントを効率的に回避できるが,SGDほど平坦な最小値を選択することはできない。
対照的に、Momentumはトレーニングプロセスがサドルポイントを通過するのを助けるドリフト効果を提供しており、平らなミニマ選択にはほとんど影響しない。
これはSGD (with Momentum) がより良く一般化するのに対し、アダムはより良く一般化するがより速く収束する理由を部分的に説明している。
さらに,本分析により,パラメータワイド適応慣性を用いてトレーニングを加速し,フラットなミニマとSGDを効果的に好む適応最適化フレームワークであるAdaptive Inertiaを設計した。
提案する適応慣性法がsgd法や従来の適応勾配法よりも大幅に一般化できることを示す。
関連論文リスト
- Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。
これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - Signal Processing Meets SGD: From Momentum to Filter [6.751292200515353]
ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化に広く利用されている。
本稿では,一般化を犠牲にすることなく,SGDの収束を高速化する新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T01:41:46Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models [132.90062129639705]
本稿では,全てのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を改善する。
対照的に、高い感度を持つパラメータを十分に訓練し、学習率を下げて正規化することで、さらなる過度なオーバーフィッティングを防止する。
論文 参考訳(メタデータ) (2022-02-06T00:22:28Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。