論文の概要: Fantastic Pretraining Optimizers and Where to Find Them
- arxiv url: http://arxiv.org/abs/2509.02046v2
- Date: Thu, 04 Sep 2025 19:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 12:28:42.571079
- Title: Fantastic Pretraining Optimizers and Where to Find Them
- Title(参考訳): ファンタスティック・プレトレーニング・オプティマイザとその発見方法
- Authors: Kaiyue Wen, David Hall, Tengyu Ma, Percy Liang,
- Abstract要約: AdamWは長い間、言語モデルの事前訓練において支配的な勾配だった。
行列ベースの行列の高速化はモデルスケールに逆比例する。
- 参考スコア(独自算出の注目度): 59.56075036649332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AdamW has long been the dominant optimizer in language model pretraining, despite numerous claims that alternative optimizers offer 1.4 to 2x speedup. We posit that two methodological shortcomings have obscured fair comparisons and hindered practical adoption: (i) unequal hyperparameter tuning and (ii) limited or misleading evaluation setups. To address these two issues, we conduct a systematic study of ten deep learning optimizers across four model scales (0.1B-1.2B parameters) and data-to-model ratios (1-8x the Chinchilla optimum). We find that fair and informative comparisons require rigorous hyperparameter tuning and evaluations across a range of model scales and data-to-model ratios, performed at the end of training. First, optimal hyperparameters for one optimizer may be suboptimal for another, making blind hyperparameter transfer unfair. Second, the actual speedup of many proposed optimizers over well-tuned baselines is lower than claimed and decreases with model size to only 1.1x for 1.2B parameter models. Thirdly, comparing intermediate checkpoints before reaching the target training budgets can be misleading, as rankings between two optimizers can flip during training due to learning rate decay. Through our thorough investigation, we find that all the fastest optimizers such as Muon and Soap, use matrices as preconditioners -- multiplying gradients with matrices rather than entry-wise scalars. However, the speedup of matrix-based optimizers is inversely proportional to model scale, decreasing from 1.4x over AdamW for 0.1B parameter models to merely 1.1x for 1.2B parameter models.
- Abstract(参考訳): 代替オプティマイザは1.4倍から2倍のスピードアップを提供するという多くの主張にもかかわらず、AdamWは長い間、言語モデルの事前トレーニングにおいて支配的なオプティマイザだった。
2つの方法論上の欠点は、公正な比較を曖昧にし、実践的採用を妨げていると仮定する。
(i)不平等なハイパーパラメータチューニング、及び
(二 限定的又は誤認的評価制度
これら2つの問題に対処するために,4つのモデルスケール(0.1B-1.2Bパラメータ)とデータ-モデル比(チンチラ最適値の1-8倍)にまたがる10のディープラーニングオプティマイザの体系的研究を行った。
公平かつ情報的な比較には,訓練終了後に実施される,厳密なハイパーパラメータチューニングと,モデルスケールおよびデータ-モデル比による評価が必要であることが判明した。
第一に、ある最適化器に最適なハイパーパラメーターは、別の最適化器に最適である可能性があり、ブラインドハイパーパラメーター転送が不公平である。
第二に、よく調整されたベースラインに対する多くのオプティマイザの実際の高速化は、要求よりも低く、1.2Bパラメータモデルではモデルサイズが1.1倍に減少する。
第3に、目標のトレーニング予算に達する前に中間チェックポイントを比較することは誤解を招く可能性がある。
徹底的な調査を通じて、MuonやSoapのような高速な最適化ツールはすべて、行列をプレコンディショナーとして使用しています。
しかし、行列ベースのオプティマイザの高速化はモデルスケールに反比例し、0.1BパラメータモデルではAdamWの1.4倍から1.2Bパラメータモデルでは1.1倍に減少する。
関連論文リスト
- Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales [55.91454326946738]
学習速度と減量率の最適化は,幅広い言語に対して,モデルの幅と深さでどのようにスケールするかを検討する。
我々は、$Pによる学習率のスケーリングは転送を改善するが、それでもかなりの有限幅偏差に悩まされる可能性があることを見出した。
計算-最適スケーリングでは、独立したウェイト崩壊が1/mathrmwidth$で言語間でほぼ最適であることが分かる。
論文 参考訳(メタデータ) (2025-12-05T11:03:41Z) - CAST: Continuous and Differentiable Semi-Structured Sparsity-Aware Training for Large Language Models [27.682531424487564]
スパシティアウェアトレーニングは、大きな言語モデルをハードウェアフレンドリーなスパースパターンに変換するための効果的なアプローチである。
スパースモデルのための連続的かつ微分可能なスパース対応トレーニングフレームワークであるContinuous Adaptive Sparse Trainer (CAST)を提案する。
以上の結果から,従来の最先端手法に比べて,トレーニングリソースの最小化による難易度とゼロショット精度の両面で有意な改善が見られた。
論文 参考訳(メタデータ) (2025-09-30T09:28:47Z) - Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - Heart Disease Prediction: A Comparative Study of Optimisers Performance in Deep Neural Networks [0.0]
そこで我々は,Kaggleの心臓病データセットを用いて,シンプルな多層パーセプトロンモデルのトレーニングにおける10種類のアプローチの性能を比較した。
我々は、一貫したトレーニングパラダイムを設定し、収束速度や安定性などのメトリクスに基づいてメトリクスを評価する。
すべてのメトリクスに対して、重要なメトリクス間でバランスのとれたパフォーマンスを提供するため、この心臓病予測タスクに最も効果的であるようにRMSPropを選択しました。
論文 参考訳(メタデータ) (2025-09-10T11:15:44Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。
最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文 参考訳(メタデータ) (2024-05-23T13:52:36Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。