論文の概要: Is your batch size the problem? Revisiting the Adam-SGD gap in language modeling
- arxiv url: http://arxiv.org/abs/2506.12543v1
- Date: Sat, 14 Jun 2025 15:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.421133
- Title: Is your batch size the problem? Revisiting the Adam-SGD gap in language modeling
- Title(参考訳): あなたのバッチサイズは問題か?言語モデリングにおけるAdam-SGDギャップを再考
- Authors: Teodora Srećković, Jonas Geiping, Antonio Orvieto,
- Abstract要約: 言語モデルでは、AdamはGradient Descent(SGD)よりもはるかに優れていることが知られている。
我々は,SGDとAdamのギャップに運動量,勾配クリッピング,バッチサイズがどのような影響を及ぼすか,徹底的に検討した。
- 参考スコア(独自算出の注目度): 36.106114687828395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adam is known to perform significantly better than Stochastic Gradient Descent (SGD) in language models, a phenomenon for which a number of explanations have been proposed. In this work, we revisit this "optimizer gap" through a series of comprehensively tuned baseline training runs for language modeling with Transformers. We exhaustively study how momentum, gradient clipping, and batch size affect the gap between SGD and Adam. Our empirical findings show that SGD with momentum can actually perform similarly to Adam in small-batch settings, if tuned correctly. We revisit existing explanations for Adam's advantage, including heavy-tailed class imbalance, directional sharpness, and Hessian heterogeneity, which struggle to directly explain this phenomenon. Towards bridging this gap in our understanding, by analyzing our Transformer training runs and simple quadratic settings inspired by the literature, we provide new insights, driven by stochastic differential equation models, into the role of batch size on the training dynamics.
- Abstract(参考訳): アダムは言語モデルにおいてSGD(Stochastic Gradient Descent)よりもはるかに優れた性能を発揮することが知られており、多くの説明が提案されている。
本研究では,Transformersを用いた言語モデリングのための一連のベースライントレーニングを通じて,この"最適化ギャップ"を再考する。
我々は,SGDとAdamのギャップに運動量,勾配クリッピング,バッチサイズがどのような影響を及ぼすか,徹底的に検討した。
実験により、運動量を持つSGDは、正しく調整された場合、小さなバッチ設定でAdamと同じような動作をすることができることがわかった。
我々は、この現象を直接説明するのに苦労する重い尾のクラス不均衡、方向の鋭さ、ヘッセンの不均一性など、アダムの利点に対する既存の説明を再考する。
我々の理解におけるこのギャップを埋めるために、Transformerトレーニングの実行と文献に触発された単純な二次的設定を分析して、確率微分方程式モデルによって駆動される新たな洞察を、トレーニングダイナミクスにおけるバッチサイズの役割に与えます。
関連論文リスト
- In Search of Adam's Secret Sauce [11.215133680044005]
さまざまなデータ構成とスケールで1,300以上の言語モデルをトレーニングしています。
符号付き運動量法は SGD よりも高速であるが、Adam と比較して一貫して性能が劣っている。
この設定でAdam氏は、勾配の平均と分散を推定するための自然なオンラインアルゴリズムを実装している。
論文 参考訳(メタデータ) (2025-05-27T23:30:18Z) - AdamS: Momentum Itself Can Be A Normalizer for LLM Pretraining and Post-training [22.58304858379219]
我々は,大規模言語モデル(LLM)の事前学習とポストトレーニングのための,Adamの簡易かつ効果的な代替手段であるAdamSを紹介した。
新たな分母、すなわち運動量と現在の勾配の重み付き和の根を利用することにより、AdamSは第二モーメント推定の必要性を排除している。
AdamSは効率が良く、SGDのメモリと計算フットプリントと運動量とを一致させ、優れた最適化性能を提供する。
論文 参考訳(メタデータ) (2025-05-22T08:16:48Z) - Adam on Local Time: Addressing Nonstationarity in RL with Relative Adam Timesteps [65.64965527170156]
我々は、強化学習に広く用いられているAdam optimiserに適応する。
我々は、Adam-Relがエポック内で局所的なタイムステップを使用しており、基本的にターゲット変更後のAdamのタイムステップを0にリセットしていることを示す。
次に,RLにおいて勾配ノルムの増加が生じることを示すとともに,理論モデルと観測データとの差について検討する。
論文 参考訳(メタデータ) (2024-12-22T18:01:08Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - Noise Is Not the Main Factor Behind the Gap Between SGD and Adam on
Transformers, but Sign Descent Might Be [16.170888329408353]
大規模なバッチを持つAdamの挙動は、運動量を持つ符号降下と類似していることが示される。
我々は,SGDとAdamのパフォーマンスギャップにおいて,重み付けノイズと重み付けノイズが重要な要因ではないことを示す。
論文 参考訳(メタデータ) (2023-04-27T05:41:13Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - A Unified Analysis of AdaGrad with Weighted Aggregation and Momentum
Acceleration [21.929334023875874]
適応学習率の統合。
SGDのテクニックは、大きなものにつながります。
AdaGradやAdamのような適応アルゴリズムを効率的に高速化する。
AdaProp、Adam、AccAdaProp、Adam、RMSTOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO
論文 参考訳(メタデータ) (2018-08-10T04:18:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。