論文の概要: In Search of Adam's Secret Sauce
- arxiv url: http://arxiv.org/abs/2505.21829v1
- Date: Tue, 27 May 2025 23:30:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.331011
- Title: In Search of Adam's Secret Sauce
- Title(参考訳): アダムの秘密の味を求めて
- Authors: Antonio Orvieto, Robert Gower,
- Abstract要約: さまざまなデータ構成とスケールで1,300以上の言語モデルをトレーニングしています。
符号付き運動量法は SGD よりも高速であるが、Adam と比較して一貫して性能が劣っている。
この設定でAdam氏は、勾配の平均と分散を推定するための自然なオンラインアルゴリズムを実装している。
- 参考スコア(独自算出の注目度): 11.215133680044005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the remarkable efficacy of Adam when training transformer-based language models has become a central research topic within the optimization community. To gain deeper insights, several simplifications of Adam have been proposed, such as the signed gradient and signed momentum methods. In this work, we conduct an extensive empirical study - training over 1,300 language models across different data configurations and scales - comparing Adam to several known simplified variants. We find that signed momentum methods are faster than SGD, but consistently underperform relative to Adam, even after careful tuning of momentum, clipping setting and learning rates. However, our analysis reveals a compelling option that preserves near-optimal performance while allowing for new insightful reformulations: constraining the Adam momentum parameters to be equal. Beyond robust performance, this choice affords new theoretical insights, highlights the "secret sauce" on top of signed momentum, and grants a precise statistical interpretation: we show that Adam in this setting implements a natural online algorithm for estimating the mean and variance of gradients-one that arises from a mean-field Gaussian variational inference perspective.
- Abstract(参考訳): トランスフォーマーベースの言語モデルをトレーニングする際のAdamの顕著な効果を理解することは、最適化コミュニティの中心的な研究トピックとなっている。
より深い洞察を得るために、符号付き勾配や符号付き運動量法など、アダムのいくつかの単純化が提案されている。
本研究では、さまざまなデータ構成とスケールにわたる1,300以上の言語モデルをトレーニングし、Adamをいくつかの既知の単純化された亜種と比較する、広範な実証的研究を行う。
符号付き運動量法はSGDよりも高速であるが, 運動量調整, クリッピング, 学習率に注意を払っても, アダムと比較して常に性能が劣っていることがわかった。
しかし,本分析では,Adam運動量パラメータが等しくなるという新たな洞察に富んだ改定を可能とし,ほぼ最適性能を保った魅力的な選択肢を明らかにした。
より堅牢なパフォーマンスの他に、この選択は新たな理論的な洞察を与え、署名された運動量の上に「秘密のソース」を強調し、正確な統計的解釈を与える:我々は、Adamがこの設定において、平均場ガウス変量推論の観点から生じる勾配の平均と分散を推定するための自然なオンラインアルゴリズムを実装していることを示す。
関連論文リスト
- Adam on Local Time: Addressing Nonstationarity in RL with Relative Adam Timesteps [65.64965527170156]
我々は、強化学習に広く用いられているAdam optimiserに適応する。
我々は、Adam-Relがエポック内で局所的なタイムステップを使用しており、基本的にターゲット変更後のAdamのタイムステップを0にリセットしていることを示す。
次に,RLにおいて勾配ノルムの増加が生じることを示すとともに,理論モデルと観測データとの差について検討する。
論文 参考訳(メタデータ) (2024-12-22T18:01:08Z) - CAdam: Confidence-Based Optimization for Online Learning [35.84013976735154]
本稿では,更新を決定する前に,各パラメータ次元の運動量と勾配との整合性を評価する信頼度に基づく最適化手法であるCAdamを紹介する。
合成と実世界の両方のデータセットによる実験は、CAdamが他のよく知られたシステムを上回っていることを示している。
ライブレコメンデーションシステムにおける大規模A/Bテストでは、CAdamはAdamと比較してモデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-29T12:00:27Z) - Deconstructing What Makes a Good Optimizer for Language Models [7.9224468703944115]
我々は,SGD,Adafactor,Adam,Lion,Sophiaなどの最適化アルゴリズムを比較した。
ハイパーパラメータの誤特定に対する性能や安定性の観点からは、明確な勝者として1つのアルゴリズムが現れることはなかった。
論文 参考訳(メタデータ) (2024-07-10T18:11:40Z) - Adam-family Methods with Decoupled Weight Decay in Deep Learning [3.4376560669160394]
非平滑な非平滑ネットワークに対する幅広いアダム族手法の収束特性について検討する。
提案手法では,Adam with Decoupled Weight Decay (AdamD) という新しいAdam- Family法を提案する。
論文 参考訳(メタデータ) (2023-10-13T04:59:44Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - How Do Adam and Training Strategies Help BNNs Optimization? [50.22482900678071]
我々は、AdamがBNNの粗い損失面を扱うのに適しており、より高い一般化能力でより良い最適値に達することを示す。
我々は、既存のAdamベースの最適化に基づいて、ImageNetデータセット上で70.5%のトップ1の精度を達成する簡単なトレーニングスキームを導出する。
論文 参考訳(メタデータ) (2021-06-21T17:59:51Z) - Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文 参考訳(メタデータ) (2021-01-14T06:42:29Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。