論文の概要: Fast Catch-Up, Late Switching: Optimal Batch Size Scheduling via Functional Scaling Laws
- arxiv url: http://arxiv.org/abs/2602.14208v1
- Date: Sun, 15 Feb 2026 16:06:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.737362
- Title: Fast Catch-Up, Late Switching: Optimal Batch Size Scheduling via Functional Scaling Laws
- Title(参考訳): 高速バッチアップ、遅延スイッチング:関数スケーリング法則による最適バッチサイズスケジューリング
- Authors: Jinbo Wang, Binghui Li, Zhanpeng Zhou, Mingze Wang, Yuxuan Sun, Jiaqi Zhang, Xunliang Cai, Lei Wu,
- Abstract要約: バッチサイズスケジューリング(BSS)は、大規模ディープラーニングトレーニングにおいて重要な役割を果たす。
We show that the functional scaling law framework introduced in Li et al. (2025a) provided a principled lens for analysis BSS。
- 参考スコア(独自算出の注目度): 37.651943549758634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Batch size scheduling (BSS) plays a critical role in large-scale deep learning training, influencing both optimization dynamics and computational efficiency. Yet, its theoretical foundations remain poorly understood. In this work, we show that the functional scaling law (FSL) framework introduced in Li et al. (2025a) provides a principled lens for analyzing BSS. Specifically, we characterize the optimal BSS under a fixed data budget and show that its structure depends sharply on task difficulty. For easy tasks, optimal schedules keep increasing batch size throughout. In contrast, for hard tasks, the optimal schedule maintains small batch sizes for most of training and switches to large batches only in a late stage. To explain the emergence of late switching, we uncover a dynamical mechanism -- the fast catch-up effect -- which also manifests in large language model (LLM) pretraining. After switching from small to large batches, the loss rapidly aligns with the constant large-batch trajectory. Using FSL, we show that this effect stems from rapid forgetting of accumulated gradient noise, with the catch-up speed determined by task difficulty. Crucially, this effect implies that large batches can be safely deferred to late training without sacrificing performance, while substantially reducing data consumption. Finally, extensive LLM pretraining experiments -- covering both Dense and MoE architectures with up to 1.1B parameters and 1T tokens -- validate our theoretical predictions. Across all settings, late-switch schedules consistently outperform constant-batch and early-switch baselines.
- Abstract(参考訳): バッチサイズスケジューリング(BSS)は、大規模ディープラーニングトレーニングにおいて重要な役割を担い、最適化力学と計算効率の両方に影響を与える。
しかし、その理論的な基礎はいまだに理解されていない。
本研究では,Li et al (2025a) で導入された関数スケーリング法(FSL)フレームワークが,BSSを解析するための原理化されたレンズを提供することを示す。
具体的には、固定データ予算の下で最適なBSSを特徴付けるとともに、その構造がタスクの難易度に大きく依存していることを示す。
簡単なタスクでは、最適なスケジュールはバッチサイズを拡大し続ける。
対照的に、ハードタスクの場合、最適スケジュールはトレーニングの大部分で小さなバッチサイズを維持し、後期にのみ大きなバッチに切り替える。
遅延スイッチングの出現を説明するため、我々は、大きな言語モデル(LLM)事前トレーニングにも現れる動的メカニズム、すなわち高速なキャッチアップ効果を明らかにする。
小さなバッチから大きなバッチに切り替えた後、損失は一定の大バッチ軌道と急速に一致する。
FSLを用いて、この効果は、タスクの難易度によって決定されるキャッチアップ速度により、蓄積した勾配雑音を迅速に忘れることに起因することを示す。
この効果は、データ消費を大幅に削減しつつ、パフォーマンスを犠牲にすることなく、大規模なバッチを遅延トレーニングに安全に遅延させることができることを意味している。
最後に、DenseとMoEアーキテクチャの両方を最大1.1Bパラメータと1Tトークンでカバーする広範囲なLLM事前トレーニング実験は、我々の理論予測を検証する。
すべての設定において、遅延スウィッチスケジュールはコンスタントバッチとアーリースウィッチベースラインを一貫して上回る。
関連論文リスト
- How to Set the Batch Size for Large-Scale Pre-training? [46.58311647781476]
本稿では,Warmup-Stable-Decay(WSD)学習率スケジューラに適した改良E(S)関係を提案する。
理論的には, 目標損失を達成するのに必要な最小バッチサイズしきい値であるB_minと, 合計トークンを最小化してデータ効率を最大化する最適バッチサイズであるB_optの2つの基本的特性を明らかにしている。
論文 参考訳(メタデータ) (2026-01-08T15:43:31Z) - Dynamic Learning Rate Scheduling based on Loss Changes Leads to Faster Convergence [2.1665689529884697]
emphGreedyLRは、トレーニング中に現在の損失に基づいて学習率を適応的に調整する新しいスケジューラである。
提案手法は, 精度, 速度, 収束の点で, 最先端のスケジューラよりも優れている。
論文 参考訳(メタデータ) (2025-12-16T16:03:52Z) - Seesaw: Accelerating Training by Balancing Learning Rate and Batch Size Scheduling [75.36692892951018]
トレーニング中のバッチサイズの増加は、大規模な言語モデルの事前トレーニングを加速するための有望な戦略である。
この研究はバッチサイズスケジューリングのための原則化されたフレームワークを開発する。
標準スケジューラが学習率を半減するたびに、Seesawは1/sqrt2$と倍増し、バッチサイズを倍増します。
論文 参考訳(メタデータ) (2025-10-16T14:17:38Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Optimal Growth Schedules for Batch Size and Learning Rate in SGD that Reduce SFO Complexity [0.6906005491572401]
計算勾配法におけるバッチサイズと学習速度のスケジューリングは効率を低下させ、収束を損なう。
理論的には,SFOの複雑性を低減させるバッチサイズと学習率の最適な成長スケジュールを導出した。
本結果は,ディープラーニングにおける大規模バッチ学習をスケーラブルかつ効率的に行うための理論的知見と実践的ガイドラインの両方を提供する。
論文 参考訳(メタデータ) (2025-08-07T11:52:25Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Automated Learning Rate Scheduler for Large-batch Training [24.20872850681828]
大規模バッチトレーニングは、ディープラーニングにおける大規模データセットとモデルを活用する上で不可欠である。
小規模なバッチトレーニングと同等のパフォーマンスを達成するために、特別に設計された学習率(LR)スケジュールを必要とすることが多い。
本稿では,ニューラルネットワークのトレーニングに有効なLR自動スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T05:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。