論文の概要: Seesaw: Accelerating Training by Balancing Learning Rate and Batch Size Scheduling
- arxiv url: http://arxiv.org/abs/2510.14717v1
- Date: Thu, 16 Oct 2025 14:17:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.896482
- Title: Seesaw: Accelerating Training by Balancing Learning Rate and Batch Size Scheduling
- Title(参考訳): Seesaw: 学習率のバランスとバッチサイズスケジューリングによるトレーニングの促進
- Authors: Alexandru Meterez, Depen Morwani, Jingfeng Wu, Costin-Andrei Oncescu, Cengiz Pehlevan, Sham Kakade,
- Abstract要約: トレーニング中のバッチサイズの増加は、大規模な言語モデルの事前トレーニングを加速するための有望な戦略である。
この研究はバッチサイズスケジューリングのための原則化されたフレームワークを開発する。
標準スケジューラが学習率を半減するたびに、Seesawは1/sqrt2$と倍増し、バッチサイズを倍増します。
- 参考スコア(独自算出の注目度): 75.36692892951018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Increasing the batch size during training -- a ''batch ramp'' -- is a promising strategy to accelerate large language model pretraining. While for SGD, doubling the batch size can be equivalent to halving the learning rate, the optimal strategy for adaptive optimizers like Adam is less clear. As a result, any batch-ramp scheduling, if used at all, is typically tuned heuristically. This work develops a principled framework for batch-size scheduling and introduces Seesaw: whenever a standard scheduler would halve the learning rate, Seesaw instead multiplies it by $1/\sqrt{2}$ and doubles the batch size, preserving loss dynamics while reducing serial steps. Theoretically, we provide, to our knowledge, the first finite-sample proof of equivalence between learning-rate decay and batch-size ramp-up for SGD on noisy linear regression, and we extend this equivalence to normalized SGD, a tractable proxy for Adam, under a variance-dominated regime observed in practice. Empirically, on 150M/300M/600M-parameter models trained at Chinchilla scale using a constant (critical) batch size, Seesaw matches cosine decay at equal FLOPs while reducing wall-clock time by $\approx 36\%$, approaching the theoretical limit implied by our analysis.
- Abstract(参考訳): トレーニング中のバッチサイズの増加 -- 'バッチランプ' -- は、大規模な言語モデルの事前トレーニングを加速するための有望な戦略である。
SGDでは、バッチサイズを倍にすることは学習率を半減させるのと同じだが、Adamのような適応最適化器の最適戦略は明確ではない。
結果として、バッチランプのスケジューリングは、もし全く使われていれば、通常、ヒューリスティックに調整される。
標準的なスケジューラが学習率を半減するたびに、Seesawは代わりに1/\sqrt{2}$でそれを乗算し、バッチサイズを2倍にし、シリアルステップを減らしながら損失ダイナミクスを保存する。
理論的には、我々は、学習速度減衰とSGDの雑音線形回帰におけるバッチサイズ上昇の間の同値性の最初の有限サンプル証明を提供し、この同値性は、実際に観察された分散支配体制の下で、Adamの誘引可能なプロキシである正規化SGDに拡張する。
実証実験では, チンチラスケールで一定の(臨界)バッチサイズを用いて訓練した150M/300M/600Mパラメータモデルにおいて, シーソーはコサイン崩壊をFLOPと等しく一致させ, 壁面時計の時間を$\approx 36\%$に削減し, 解析によって示唆された理論的限界に近づいた。
関連論文リスト
- Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful [69.57125049281993]
この作業は、バッチサイズ1まで、小さなバッチサイズを見直します。
小さいバッチサイズは安定してトレーニングし、より大きなバッチサイズよりもFLOP当たりのパフォーマンスが等しく、あるいは良好であることが分かりました。
論文 参考訳(メタデータ) (2025-07-09T17:57:36Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Iteration and Stochastic First-order Oracle Complexities of Stochastic
Gradient Descent using Constant and Decaying Learning Rates [0.8158530638728501]
本研究では,学習速度だけでなく,バッチサイズにも依存していることを示す。
その結果, 評価された臨界バッチサイズは, 理論結果から推定したサイズに近いことがわかった。
論文 参考訳(メタデータ) (2024-02-23T14:24:45Z) - Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Existence and Estimation of Critical Batch Size for Training Generative
Adversarial Networks with Two Time-Scale Update Rule [0.2741266294612775]
これまで、異なる学習率を用いた2つの時間スケール更新ルール(TTUR)が、理論および実際におけるGAN(Generative Adversarial Network)のトレーニングに有用であることが示されてきた。
本稿では,一定の学習率に基づいて,バッチサイズとGANをTTURで訓練するために必要なステップ数との関係について検討する。
論文 参考訳(メタデータ) (2022-01-28T08:52:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。