論文の概要: The AdEMAMix Optimizer: Better, Faster, Older
- arxiv url: http://arxiv.org/abs/2409.03137v1
- Date: Thu, 5 Sep 2024 00:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 22:44:13.255762
- Title: The AdEMAMix Optimizer: Better, Faster, Older
- Title(参考訳): AdEMAMixオプティマイザ:より良く、より速く、より古いもの
- Authors: Matteo Pagliardini, Pierre Ablin, David Grangier,
- Abstract要約: この研究は、過去の勾配を蓄積するための単一のEMAの使用に疑問を投げかけ、この選択がいかに準最適であるかを実証的に示す。
本稿では,2つのEMAを混合したAdamの簡単な修正であるAdEMAMixを提案する。
言語モデリングと画像分類に関する我々の実験は、驚くほど驚くべきことに、勾配が数万のステップに関連があることを示しています。
- 参考スコア(独自算出の注目度): 24.470432924661324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Momentum based optimizers are central to a wide range of machine learning applications. These typically rely on an Exponential Moving Average (EMA) of gradients, which decays exponentially the present contribution of older gradients. This accounts for gradients being local linear approximations which lose their relevance as the iterate moves along the loss landscape. This work questions the use of a single EMA to accumulate past gradients and empirically demonstrates how this choice can be sub-optimal: a single EMA cannot simultaneously give a high weight to the immediate past, and a non-negligible weight to older gradients. Building on this observation, we propose AdEMAMix, a simple modification of the Adam optimizer with a mixture of two EMAs to better take advantage of past gradients. Our experiments on language modeling and image classification show -- quite surprisingly -- that gradients can stay relevant for tens of thousands of steps. They help to converge faster, and often to lower minima: e.g., a $1.3$B parameter AdEMAMix LLM trained on $101$B tokens performs comparably to an AdamW model trained on $197$B tokens ($+95\%$). Moreover, our method significantly slows-down model forgetting during training. Our work motivates further exploration of different types of functions to leverage past gradients, beyond EMAs.
- Abstract(参考訳): Momentumベースのオプティマイザは、幅広い機械学習アプリケーションの中心である。
これらは典型的には、勾配の指数移動平均(EMA)に依存し、古い勾配の現在の寄与を指数関数的に減衰させる。
このことは、勾配が局所線型近似であり、損失の風景に沿って反復が移動するにつれてその関係が失われることを意味する。
この研究は、過去の勾配を蓄積するために単一のEMAを使用することに疑問を投げかけ、この選択がいかに準最適であるかを実証的に示す。
本稿では,Adamオプティマイザに2つのEMAを混合した簡単な修正を加えたAdEMAMixを提案する。
言語モデリングと画像分類に関する我々の実験は、驚くほど驚くべきことに、勾配が数万のステップに関連があることを示しています。
101$BトークンでトレーニングされたAdEMAMix LLMは、197$BトークンでトレーニングされたAdamWモデル(+95\%$)と互換性がある。
さらに,本手法は,トレーニング中のモデル忘れを著しく遅くする。
私たちの研究は、EMAを超えて過去の勾配を活用するために、さまざまな種類の関数のさらなる探索を動機付けています。
関連論文リスト
- Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - Switch EMA: A Free Lunch for Better Flatness and Sharpness [58.55452862747021]
この研究は、一行の修正、すなわち、スイッチ(SEMA)と呼ばれる各エポック後のパラメータを元のモデルに切り替えることによって、EMAの完全なポテンシャルを明らかにする。
理論的および経験的両面から、SEMAはDNNが平坦性と鋭さのトレードオフを良くする一般化最適点に到達するのに役立つことを実証する。
論文 参考訳(メタデータ) (2024-02-14T15:28:42Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - HyperMAML: Few-Shot Adaptation of Deep Models with Hypernetworks [0.0]
Few-Shot Learningは、これまで見つからなかったタスクに容易に適応できるモデルをトレーニングすることを目的としている。
Model-Agnostic Meta-Learning (MAML)は、Few-Shot学習の最も一般的なアプローチの1つである。
本稿では,更新手順のトレーニングをモデルの一部として行うHyperMAMLを提案する。
論文 参考訳(メタデータ) (2022-05-31T12:31:21Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Staircase Sign Method for Boosting Adversarial Attacks [123.19227129979943]
トランスファーベースの攻撃の敵の例を作るのは難しいし、研究のホットスポットだ。
そこで本研究では,この問題を緩和するための新しい階段サイン法(S$2$M)を提案する。
我々の手法は一般に転送ベースの攻撃と統合することができ、計算オーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2021-04-20T02:31:55Z) - In-Loop Meta-Learning with Gradient-Alignment Reward [34.1954698584925]
本稿では,GAR(グラデーション・アライメント・アライメント・アワード)という,低コストで計算可能なメモリ節約報酬を提案する。
まず、複数のデータセットを分割した混合データとして、GARを用いてデータ分布を選択する。
第2に,CIFAR-10とCIFAR-100の最先端の強化戦略と競合する学習増強戦略の導出に成功していることを示す。
論文 参考訳(メタデータ) (2021-02-05T16:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。