論文の概要: Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate
and Momentum
- arxiv url: http://arxiv.org/abs/2006.15815v11
- Date: Sun, 7 Feb 2021 11:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 13:37:43.205505
- Title: Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate
and Momentum
- Title(参考訳): アダプティブ慣性:適応学習速度と運動量の影響を解消する
- Authors: Zeke Xie, Xinrui Wang, Huishuai Zhang, Issei Sato, Masashi Sugiyama
- Abstract要約: 我々は,アダム力学の適応学習率とモメンタムがサドルポイントエスケープおよびフラットミニマ選択に与える影響を解消する。
提案手法は,SGD法や従来の適応勾配法よりも大幅に一般化可能であることを示す。
- 参考スコア(独自算出の注目度): 97.84312669132716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive Moment Estimation (Adam), which combines Adaptive Learning Rate and
Momentum, would be the most popular stochastic optimizer for accelerating the
training of deep neural networks. However, it is empirically known that Adam
often generalizes worse than Stochastic Gradient Descent (SGD). The purpose of
this paper is to unveil the mystery of this behavior in the diffusion
theoretical framework. Specifically, we disentangle the effects of Adaptive
Learning Rate and Momentum of the Adam dynamics on saddle-point escaping and
flat minima selection. We prove that Adaptive Learning Rate can escape saddle
points efficiently, but cannot select flat minima as SGD does. In contrast,
Momentum provides a drift effect to help the training process pass through
saddle points, and almost does not affect flat minima selection. This partly
explains why SGD (with Momentum) generalizes better, while Adam generalizes
worse but converges faster. Furthermore, motivated by the analysis, we design a
novel adaptive optimization framework named Adaptive Inertia, which uses
parameter-wise adaptive inertia to accelerate the training and provably favors
flat minima as well as SGD. Our extensive experiments demonstrate that the
proposed adaptive inertia method can generalize significantly better than SGD
and conventional adaptive gradient methods.
- Abstract(参考訳): Adaptive Moment Estimation (Adam)は、Adaptive Learning RateとMomentumを組み合わせることで、ディープニューラルネットワークのトレーニングを加速するための最も一般的な確率最適化である。
しかし、アダムがSGD (Stochastic Gradient Descent) よりも悪くなることは経験的に知られている。
本研究の目的は, この現象の謎を拡散理論の枠組みで明らかにすることである。
具体的には,適応学習速度とadam dynamicsの運動量の違いがサドルポイントエスケープと平たいミニマ選択に与える影響について考察した。
適応学習速度は,サドルポイントを効率的に回避できるが,SGDほど平坦な最小値を選択することはできない。
対照的に、Momentumはトレーニングプロセスがサドルポイントを通過するのを助けるドリフト効果を提供しており、平らなミニマ選択にはほとんど影響しない。
これはSGD (with Momentum) がより良く一般化するのに対し、アダムはより良く一般化するがより速く収束する理由を部分的に説明している。
さらに,本分析により,パラメータワイド適応慣性を用いてトレーニングを加速し,フラットなミニマとSGDを効果的に好む適応最適化フレームワークであるAdaptive Inertiaを設計した。
提案する適応慣性法がsgd法や従来の適応勾配法よりも大幅に一般化できることを示す。
関連論文リスト
- Signal Processing Meets SGD: From Momentum to Filter [3.8065968624597324]
ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化アルゴリズムで広く使われている。
既存の適応学習率の変種は収束を加速するが、しばしば一般化能力を犠牲にする。
本稿では,SGDの収束速度を一般化の損失なく高速化することを目的とした新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T01:41:46Z) - Promoting Exploration in Memory-Augmented Adam using Critical Momenta [33.71298144283319]
本稿では,フラットなミニマへの探索を促進するメモリ拡張版Adamを提案する。
我々は,標準的な教師付き言語モデリングと画像分類タスクにおいて,Adamのいくつかの変種の性能向上を実証的に示す。
論文 参考訳(メタデータ) (2023-07-18T20:59:52Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models [132.90062129639705]
本稿では,全てのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を改善する。
対照的に、高い感度を持つパラメータを十分に訓練し、学習率を下げて正規化することで、さらなる過度なオーバーフィッティングを防止する。
論文 参考訳(メタデータ) (2022-02-06T00:22:28Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。