論文の概要: Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful
- arxiv url: http://arxiv.org/abs/2507.07101v1
- Date: Wed, 09 Jul 2025 17:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.71937
- Title: Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful
- Title(参考訳): 言語モデルのための小さなバッチサイズトレーニング:バニラSGDが機能する時となぜグラディエント蓄積が無駄なのか
- Authors: Martin Marek, Sanae Lotfi, Aditya Somasundaram, Andrew Gordon Wilson, Micah Goldblum,
- Abstract要約: 従来の知恵では、小さなバッチサイズは言語モデルを事前訓練し、微調整を不安定にし、モチベーションを増進させる。
本研究では,バッチサイズからバッチサイズまで,小さなバッチサイズを再検討し,Adamハイパーパラメータを小さなバッチサイズにスケールするためのルールを提案する。
- 参考スコア(独自算出の注目度): 71.96579951744897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional wisdom dictates that small batch sizes make language model pretraining and fine-tuning unstable, motivating gradient accumulation, which trades off the number of optimizer steps for a proportional increase in batch size. While it is common to decrease the learning rate for smaller batch sizes, other hyperparameters are often held fixed. In this work, we revisit small batch sizes all the way down to batch size one, and we propose a rule for scaling Adam hyperparameters to small batch sizes. We find that small batch sizes (1) train stably, (2) are consistently more robust to hyperparameter choices, (3) achieve equal or better per-FLOP performance than larger batch sizes, and (4) notably enable stable language model training with vanilla SGD, even without momentum, despite storing no optimizer state. Building on these results, we provide practical recommendations for selecting a batch size and setting optimizer hyperparameters. We further recommend against gradient accumulation unless training on multiple devices with multiple model replicas, bottlenecked by inter-device bandwidth.
- Abstract(参考訳): 従来の知恵は、小さなバッチサイズは言語モデルを事前訓練し、微調整し、グラデーションの蓄積を動機付け、バッチサイズを比例的に増加させる最適化ステップの数をトレードオフする。
バッチサイズを小さくするためには学習率を下げることが一般的だが、他のハイパーパラメータは固定されることが多い。
本研究では、バッチサイズからバッチサイズまで、小さなバッチサイズを再検討し、Adamハイパーパラメータを小さなバッチサイズにスケールするためのルールを提案する。
その結果,(1) 比較的小さなバッチサイズは安定して,(2) は高パラメータ選択に対して安定的に頑健であり,(3) より大きなバッチサイズよりもFLOP毎の性能が良好であること,(4) バニラSGDによる安定言語モデルのトレーニングが,最適化状態は保存されていないにもかかわらず、運動量なしで可能であること,などが判明した。
これらの結果に基づいて、バッチサイズを選択し、オプティマイザのハイパーパラメータを設定するための実用的な推奨事項を提供する。
さらに、複数のモデルレプリカを持つ複数のデバイスでトレーニングをしない限り、デバイス間の帯域幅でボトルネックが発生しない限り、勾配の蓄積を抑えることを推奨する。
関連論文リスト
- APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler [34.416299887009195]
提案したWSDスケジューラの最適学習率,バッチサイズ,トレーニングトークン数の相関について検討した。
本稿では,学習率スケジューラであるPowerスケジューラを提案する。
Powerスケジューラでトレーニングした3B高密度モデルとMoEモデルは、最先端の小型言語モデルと同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-08-23T20:22:20Z) - Mini-batch Coresets for Memory-efficient Language Model Training on Data Mixtures [41.59038171479036]
大規模言語モデル(LLM)における大規模ミニバッチの訓練の禁止化
我々は、コアセットによるLLM訓練(CoLM)を提案する。
CoLMは、微調整のメモリ要求を2倍に減らし、4倍大きなミニバッチでトレーニングを上回ります。
論文 参考訳(メタデータ) (2024-07-28T20:39:16Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Enabling Large Batch Size Training for DNN Models Beyond the Memory Limit While Maintaining Performance [0.22499166814992438]
最近のディープラーニングモデルは、大規模なバッチサイズを使用してトレーニングするのは難しい。
マシンはモデルと大きなデータバッチサイズの両方に対応するのに十分なメモリを持っていないかもしれない。
本稿では,マイクロバッチ処理(MBP)と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T16:38:05Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Concurrent Adversarial Learning for Large-Batch Training [83.55868483681748]
逆学習は、決定面を滑らかにし、平坦な領域に偏りを付けるための自然な選択である。
本稿では,安定パラメータを用いて,逐次勾配計算を分離するConcurrent Adversarial Learning(ConAdv)手法を提案する。
これは、ResNet-50トレーニングバッチサイズを96Kにスケールする最初の作業である。
論文 参考訳(メタデータ) (2021-06-01T04:26:02Z) - AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文 参考訳(メタデータ) (2020-07-09T23:26:13Z) - Stagewise Enlargement of Batch Size for SGD-based Learning [20.212176652894495]
既存の研究では、バッチサイズが勾配降下(SGD)に基づく学習の性能に深刻な影響を与えることが示されている。
SGDの適切なバッチサイズを設定するために,アンダーラインバッチアンダーラインライズ(mboxSEBS)を段階的にアンダーライン展開する手法を提案する。
論文 参考訳(メタデータ) (2020-02-26T16:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。