論文の概要: Deconstructing What Makes a Good Optimizer for Language Models
- arxiv url: http://arxiv.org/abs/2407.07972v1
- Date: Wed, 10 Jul 2024 18:11:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 21:48:59.180099
- Title: Deconstructing What Makes a Good Optimizer for Language Models
- Title(参考訳): 言語モデルに最適な最適化を実現するためのデコンストラクション
- Authors: Rosie Zhao, Depen Morwani, David Brandfonbrener, Nikhil Vyas, Sham Kakade,
- Abstract要約: SGD,Adafactor,Adam,Lionなどの最適化アルゴリズムを自己回帰言語モデリングの文脈で比較する。
以上の結果から,SGDを除いて,これらのアルゴリズムは最適性能の両立が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 7.9224468703944115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training language models becomes increasingly expensive with scale, prompting numerous attempts to improve optimization efficiency. Despite these efforts, the Adam optimizer remains the most widely used, due to a prevailing view that it is the most effective approach. We aim to compare several optimization algorithms, including SGD, Adafactor, Adam, and Lion, in the context of autoregressive language modeling across a range of model sizes, hyperparameters, and architecture variants. Our findings indicate that, except for SGD, these algorithms all perform comparably both in their optimal performance and also in terms of how they fare across a wide range of hyperparameter choices. Our results suggest to practitioners that the choice of optimizer can be guided by practical considerations like memory constraints and ease of implementation, as no single algorithm emerged as a clear winner in terms of performance or stability to hyperparameter misspecification. Given our findings, we further dissect these approaches, examining two simplified versions of Adam: a) signed momentum (Signum) which we see recovers both the performance and hyperparameter stability of Adam and b) Adalayer, a layerwise variant of Adam which we introduce to study Adam's preconditioning. Examining Adalayer leads us to the conclusion that the largest impact of Adam's preconditioning is restricted to the last layer and LayerNorm parameters, and, perhaps surprisingly, the remaining layers can be trained with SGD.
- Abstract(参考訳): 言語モデルのトレーニングは、大規模化によってますます高価になり、最適化効率を改善するために多くの試みが行われている。
これらの努力にもかかわらず、Adamオプティマイザが最も広く使われているのは、これが最も効果的なアプローチである、という見解が一般的であるためである。
我々は,SGD,Adafactor,Adam,Lionといった最適化アルゴリズムを,モデルサイズ,ハイパーパラメータ,アーキテクチャの変種など,多岐にわたる自動回帰言語モデリングの文脈で比較することを目指している。
以上の結果から,これらのアルゴリズムは,SGDを除いて,最適性能と多種多様なハイパーパラメータの選択方法の両面で比較可能な性能を示した。
この結果から,メモリ制約や実装の容易さといった実践的な考慮により,オプティマイザの選択を導出できることが示唆された。
以上の結果から,Adam の2つの簡易版について検討し,これらのアプローチをさらに検討する。
a)アダムとアダムのパフォーマンスとハイパーパラメータの安定性の両方を回復させる署名された運動量(署名)
b)Adalayerは、Adamのプレコンディショニングを研究するために導入したAdamのレイヤーワイズ版である。
Adalayerを調べたところ、Adamのプリコンディショニングの最大の影響は最後のレイヤとLayerNormパラメータに限られており、おそらくは、残りのレイヤはSGDでトレーニングできるという結論に至った。
関連論文リスト
- Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Adam with model exponential moving average is effective for nonconvex optimization [45.242009309234305]
本稿では,Adamのような適応最適化アルゴリズムと(II)指数移動平均(EMA)モデルという,大規模かつ複雑なモデルのトレーニングのための2つの現代的な最適化手法に関する理論的解析を行う。
論文 参考訳(メタデータ) (2024-05-28T14:08:04Z) - Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。
最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文 参考訳(メタデータ) (2024-05-23T13:52:36Z) - Variational Stochastic Gradient Descent for Deep Neural Networks [16.96187187108041]
現在の最先端は、Adamのような適応的勾配に基づく最適化手法である。
ここでは,2つのアプローチを組み合わせることを提案し,その結果,VSGD(Variational Gradient Descent)を導出する。
我々は、VSGD法がAdamのような他の適応勾配ベースとどのように関係しているかを示す。
論文 参考訳(メタデータ) (2024-04-09T18:02:01Z) - MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。
私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。
AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - Studying K-FAC Heuristics by Viewing Adam through a Second-Order Lens [34.72514951778262]
我々は,K-FACの減衰と学習率選択技術を組み合わせたオプティマイザAdamQLRについて検討した。
我々はAdamQLRを様々なスケールで様々な回帰・分類タスクで評価する。
チューニングされていないAdamQLR設定を見つけることで、チューニングされたベンチマークに対して、実行時と同等のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-10-23T14:06:46Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。