論文の概要: Promoting Exploration in Memory-Augmented Adam using Critical Momenta
- arxiv url: http://arxiv.org/abs/2307.09638v1
- Date: Tue, 18 Jul 2023 20:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 16:04:03.518806
- Title: Promoting Exploration in Memory-Augmented Adam using Critical Momenta
- Title(参考訳): 臨界モーメントを用いた記憶提示アダムの探索促進
- Authors: Pranshu Malviya, Gon\c{c}alo Mordido, Aristide Baratin, Reza
Babanezhad Harikandeh, Jerry Huang, Simon Lacoste-Julien, Razvan Pascanu,
Sarath Chandar
- Abstract要約: 本稿では,フラットなミニマへの探索を促進するメモリ拡張版Adamを提案する。
我々は,標準的な教師付き言語モデリングと画像分類タスクにおいて,Adamのいくつかの変種の性能向上を実証的に示す。
- 参考スコア(独自算出の注目度): 33.71298144283319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive gradient-based optimizers, particularly Adam, have left their mark
in training large-scale deep learning models. The strength of such optimizers
is that they exhibit fast convergence while being more robust to hyperparameter
choice. However, they often generalize worse than non-adaptive methods. Recent
studies have tied this performance gap to flat minima selection: adaptive
methods tend to find solutions in sharper basins of the loss landscape, which
in turn hurts generalization. To overcome this issue, we propose a new
memory-augmented version of Adam that promotes exploration towards flatter
minima by using a buffer of critical momentum terms during training.
Intuitively, the use of the buffer makes the optimizer overshoot outside the
basin of attraction if it is not wide enough. We empirically show that our
method improves the performance of several variants of Adam on standard
supervised language modelling and image classification tasks.
- Abstract(参考訳): 適応勾配に基づくオプティマイザ、特にadamは、大規模ディープラーニングモデルのトレーニングにおいて、その特徴を残している。
このようなオプティマイザの強みは、ハイパーパラメータ選択に対してより堅牢でありながら、高速収束を示すことである。
しかし、しばしば非適応的な方法よりも悪質なものを一般化する。
最近の研究では、この性能の差は平坦な極小選択に結びついている:適応的手法は損失景観のより鋭い盆地で解を見つける傾向があり、それが一般化を損なう。
この問題を解決するために,トレーニング中に臨界運動量項のバッファを用いてフラットなミニマへの探索を促進するAdamの新しいメモリ拡張版を提案する。
直感的には、バッファの使用は、十分な広さがなければアトラクションの流域の外で最適化器をオーバーシュートさせる。
我々は,標準的な教師付き言語モデリングと画像分類タスクにおいて,Adamのいくつかの変種の性能向上を実証的に示す。
関連論文リスト
- StochGradAdam: Accelerating Neural Networks Training with Stochastic
Gradient Sampling [0.0]
本稿では,十分に無視されたAdamアルゴリズムの新たな適応であるStochGradAdamを公表する。
StochGradAdamは画像分類とセグメンテーションの両方において、従来のAdamよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-10-25T22:45:31Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate
and Momentum [97.84312669132716]
我々は,アダム力学の適応学習率とモメンタムがサドルポイントエスケープおよびフラットミニマ選択に与える影響を解消する。
提案手法は,SGD法や従来の適応勾配法よりも大幅に一般化可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T05:21:02Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - On the Trend-corrected Variant of Adaptive Stochastic Optimization
Methods [30.084554989542475]
本稿では,適応的なステップサイズと勾配でパラメータを更新する際のトレンド情報を備えたAdam型手法の新しいフレームワークを提案する。
我々は,従来のAdamおよびAMSGradメソッドを,複数の実世界のデータセットを持つ古典的モデル上で常に上回る,トレンドコンポーネントを追加することの重要性を実証的に示す。
論文 参考訳(メタデータ) (2020-01-17T01:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。