論文の概要: How to Set the Batch Size for Large-Scale Pre-training?
- arxiv url: http://arxiv.org/abs/2601.05034v1
- Date: Thu, 08 Jan 2026 15:43:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.257147
- Title: How to Set the Batch Size for Large-Scale Pre-training?
- Title(参考訳): 大規模プレトレーニングのためのバッチサイズの設定法
- Authors: Yunhua Zhou, Junhao Huang, Shuhao Xin, Yechen Zhang, Runyu Peng, Qiping Guo, Xipeng Qiu,
- Abstract要約: 本稿では,Warmup-Stable-Decay(WSD)学習率スケジューラに適した改良E(S)関係を提案する。
理論的には, 目標損失を達成するのに必要な最小バッチサイズしきい値であるB_minと, 合計トークンを最小化してデータ効率を最大化する最適バッチサイズであるB_optの2つの基本的特性を明らかにしている。
- 参考スコア(独自算出の注目度): 45.95897704915068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The concept of Critical Batch Size, as pioneered by OpenAI, has long served as a foundational principle for large-scale pre-training. However, with the paradigm shift towards the Warmup-Stable-Decay (WSD) learning rate scheduler, we observe that the original theoretical framework and its underlying mechanisms fail to align with new pre-training dynamics. To bridge this gap between theory and practice, this paper derives a revised E(S) relationship tailored for WSD scheduler, characterizing the trade-off between training data consumption E and steps S during pre-training. Our theoretical analysis reveals two fundamental properties of WSD-based pre-training: 1) B_min, the minimum batch size threshold required to achieve a target loss, and 2) B_opt, the optimal batch size that maximizes data efficiency by minimizing total tokens. Building upon these properties, we propose a dynamic Batch Size Scheduler. Extensive experiments demonstrate that our revised formula precisely captures the dynamics of large-scale pre-training, and the resulting scheduling strategy significantly enhances both training efficiency and final model quality.
- Abstract(参考訳): OpenAIの先駆者であるCritical Batch Sizeの概念は、大規模な事前トレーニングの基本原則として長く使われてきた。
しかし、Warmup-Stable-Decay(WSD)学習率スケジューラへのパラダイムシフトにより、元の理論的枠組みとその基盤となるメカニズムが、新しい事前学習力学と整合しないことが明らかとなった。
この理論と実践のギャップを埋めるため、本論文では、事前トレーニング中に、トレーニングデータ消費EとステップSとのトレードオフを特徴付ける、WSDスケジューラ用に調整されたE(S)関係を導出する。
我々の理論解析は、WSDベースの事前学習の2つの基本特性を明らかにしている。
1)B_minは、目標損失を達成するために必要な最小バッチサイズ閾値であり、
2) B_optは全トークンを最小化することでデータの効率を最大化する最適なバッチサイズである。
これらの特性に基づいて動的バッチサイズスケジューリングを提案する。
大規模な事前学習の力学を正確に把握し,その結果, トレーニング効率と最終モデル品質の両面において, スケジューリング戦略が著しく向上することを示した。
関連論文リスト
- Optimal Growth Schedules for Batch Size and Learning Rate in SGD that Reduce SFO Complexity [0.6906005491572401]
計算勾配法におけるバッチサイズと学習速度のスケジューリングは効率を低下させ、収束を損なう。
理論的には,SFOの複雑性を低減させるバッチサイズと学習率の最適な成長スケジュールを導出した。
本結果は,ディープラーニングにおける大規模バッチ学習をスケーラブルかつ効率的に行うための理論的知見と実践的ガイドラインの両方を提供する。
論文 参考訳(メタデータ) (2025-08-07T11:52:25Z) - Through the River: Understanding the Benefit of Schedule-Free Methods for Language Model Training [35.81422928960327]
本研究では, 損失景観の「川」構造を, 崩壊相や補助平均化を伴わず, 効果的にナビゲート可能であることを示す。
本研究では,大きなバッチサイズにおいて,運動量の向上と性能向上を図ったSFの改良版を提案する。
論文 参考訳(メタデータ) (2025-07-14T00:54:48Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - Rethinking Resource Management in Edge Learning: A Joint Pre-training and Fine-tuning Design Paradigm [87.47506806135746]
一部のアプリケーションでは、エッジラーニングは、スクラッチから新しい2段階ラーニングへと焦点を移している。
本稿では,2段階のエッジ学習システムにおける共同コミュニケーションと計算資源管理の問題について考察する。
事前学習および微調整段階に対する共同資源管理の提案は,システム性能のトレードオフをうまくバランスさせることが示されている。
論文 参考訳(メタデータ) (2024-04-01T00:21:11Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。