論文の概要: Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful
- arxiv url: http://arxiv.org/abs/2507.07101v1
- Date: Wed, 09 Jul 2025 17:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.71937
- Title: Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful
- Title(参考訳): 言語モデルのための小さなバッチサイズトレーニング:バニラSGDが機能する時となぜグラディエント蓄積が無駄なのか
- Authors: Martin Marek, Sanae Lotfi, Aditya Somasundaram, Andrew Gordon Wilson, Micah Goldblum,
- Abstract要約: 従来の知恵では、小さなバッチサイズは言語モデルを事前訓練し、微調整を不安定にし、モチベーションを増進させる。
本研究では,バッチサイズからバッチサイズまで,小さなバッチサイズを再検討し,Adamハイパーパラメータを小さなバッチサイズにスケールするためのルールを提案する。
- 参考スコア(独自算出の注目度): 71.96579951744897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional wisdom dictates that small batch sizes make language model pretraining and fine-tuning unstable, motivating gradient accumulation, which trades off the number of optimizer steps for a proportional increase in batch size. While it is common to decrease the learning rate for smaller batch sizes, other hyperparameters are often held fixed. In this work, we revisit small batch sizes all the way down to batch size one, and we propose a rule for scaling Adam hyperparameters to small batch sizes. We find that small batch sizes (1) train stably, (2) are consistently more robust to hyperparameter choices, (3) achieve equal or better per-FLOP performance than larger batch sizes, and (4) notably enable stable language model training with vanilla SGD, even without momentum, despite storing no optimizer state. Building on these results, we provide practical recommendations for selecting a batch size and setting optimizer hyperparameters. We further recommend against gradient accumulation unless training on multiple devices with multiple model replicas, bottlenecked by inter-device bandwidth.
- Abstract(参考訳): 従来の知恵は、小さなバッチサイズは言語モデルを事前訓練し、微調整し、グラデーションの蓄積を動機付け、バッチサイズを比例的に増加させる最適化ステップの数をトレードオフする。
バッチサイズを小さくするためには学習率を下げることが一般的だが、他のハイパーパラメータは固定されることが多い。
本研究では、バッチサイズからバッチサイズまで、小さなバッチサイズを再検討し、Adamハイパーパラメータを小さなバッチサイズにスケールするためのルールを提案する。
その結果,(1) 比較的小さなバッチサイズは安定して,(2) は高パラメータ選択に対して安定的に頑健であり,(3) より大きなバッチサイズよりもFLOP毎の性能が良好であること,(4) バニラSGDによる安定言語モデルのトレーニングが,最適化状態は保存されていないにもかかわらず、運動量なしで可能であること,などが判明した。
これらの結果に基づいて、バッチサイズを選択し、オプティマイザのハイパーパラメータを設定するための実用的な推奨事項を提供する。
さらに、複数のモデルレプリカを持つ複数のデバイスでトレーニングをしない限り、デバイス間の帯域幅でボトルネックが発生しない限り、勾配の蓄積を抑えることを推奨する。
関連論文リスト
- Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler [34.416299887009195]
提案したWSDスケジューラの最適学習率,バッチサイズ,トレーニングトークン数の相関について検討した。
本稿では,学習率スケジューラであるPowerスケジューラを提案する。
Powerスケジューラでトレーニングした3B高密度モデルとMoEモデルは、最先端の小型言語モデルと同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-08-23T20:22:20Z) - Mini-batch Coresets for Memory-efficient Language Model Training on Data Mixtures [41.59038171479036]
大規模言語モデル(LLM)における大規模ミニバッチの訓練の禁止化
我々は、コアセットによるLLM訓練(CoLM)を提案する。
CoLMは、微調整のメモリ要求を2倍に減らし、4倍大きなミニバッチでトレーニングを上回ります。
論文 参考訳(メタデータ) (2024-07-28T20:39:16Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Enabling Large Batch Size Training for DNN Models Beyond the Memory Limit While Maintaining Performance [0.22499166814992438]
最近のディープラーニングモデルは、大規模なバッチサイズを使用してトレーニングするのは難しい。
マシンはモデルと大きなデータバッチサイズの両方に対応するのに十分なメモリを持っていないかもしれない。
本稿では,マイクロバッチ処理(MBP)と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T16:38:05Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Stagewise Enlargement of Batch Size for SGD-based Learning [20.212176652894495]
既存の研究では、バッチサイズが勾配降下(SGD)に基づく学習の性能に深刻な影響を与えることが示されている。
SGDの適切なバッチサイズを設定するために,アンダーラインバッチアンダーラインライズ(mboxSEBS)を段階的にアンダーライン展開する手法を提案する。
論文 参考訳(メタデータ) (2020-02-26T16:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。