Fugu-MT 論文翻訳(概要): Adaptive Batch Size Schedules for Distributed Training of Language Models with Data and Model Parallelism

論文の概要: Adaptive Batch Size Schedules for Distributed Training of Language Models with Data and Model Parallelism

arxiv url: http://arxiv.org/abs/2412.21124v1
Date: Mon, 30 Dec 2024 17:55:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.835175
Title: Adaptive Batch Size Schedules for Distributed Training of Language Models with Data and Model Parallelism
Title（参考訳）: データとモデル並列性を持つ言語モデルの分散学習のための適応的バッチサイズスケジューリング
Authors: Tim Tsz-Kit Lau, Weijian Li, Chenwei Xu, Han Liu, Mladen Kolar,
Abstract要約: PyTorch Fully Sharded Data Parallel を用いた実用的な実装を開発した。提案手法は定数バッチサイズや勾配バッチサイズよりも優れていることを示す。
参考スコア（独自算出の注目度）: 17.006352664497122
License: http://creativecommons.org/licenses/by/4.0/
Abstract: An appropriate choice of batch sizes in large-scale model training is crucial, yet it involves an intrinsic yet inevitable dilemma: large-batch training improves training efficiency in terms of memory utilization, while generalization performance often deteriorates due to small amounts of gradient noise. Despite this dilemma, the common practice of choosing batch sizes in language model training often prioritizes training efficiency -- employing either constant large sizes with data parallelism or implementing batch size warmup schedules. However, such batch size schedule designs remain heuristic and often fail to adapt to training dynamics, presenting the challenge of designing adaptive batch size schedules. Given the abundance of available datasets and the data-hungry nature of language models, data parallelism has become an indispensable distributed training paradigm, enabling the use of larger batch sizes for gradient computation. However, vanilla data parallelism requires replicas of model parameters, gradients, and optimizer states at each worker, which prohibits training larger models with billions of parameters. To optimize memory usage, more advanced parallelism strategies must be employed. In this work, we propose general-purpose and theoretically principled adaptive batch size schedules compatible with data parallelism and model parallelism. We develop a practical implementation with PyTorch Fully Sharded Data Parallel, facilitating the pretraining of language models of different sizes. We empirically demonstrate that our proposed approaches outperform constant batch sizes and heuristic batch size warmup schedules in the pretraining of models in the Llama family, with particular focus on smaller models with up to 3 billion parameters. We also establish theoretical convergence guarantees for such adaptive batch size schedules with Adam for general smooth nonconvex objectives.
Abstract（参考訳）: 大規模モデルトレーニングにおいてバッチサイズを適切に選択することは重要であるが、本質的だが必然的なジレンマが伴う: 大規模バッチトレーニングは、メモリ使用率の観点からトレーニング効率を改善する一方、一般化性能は、少量の勾配ノイズのために劣化することが多い。このようなジレンマにもかかわらず、言語モデルのトレーニングでバッチサイズを選択する一般的なプラクティスは、トレーニング効率を優先することが多い。しかし、そのようなバッチサイズスケジュール設計はヒューリスティックであり、しばしばトレーニング力学に適応できず、適応的なバッチサイズスケジュールを設計するという課題を提示している。利用可能なデータセットの豊富さと言語モデルのデータ不足の性質を考えると、データ並列性は必要不可欠な分散トレーニングパラダイムとなり、グラデーション計算により大きなバッチサイズを使用することを可能にしている。しかしながら、バニラデータの並列処理には、モデルパラメータ、勾配、オプティマイザ状態のレプリカが必要である。メモリ使用量の最適化には、より高度な並列処理戦略を採用する必要がある。本研究では,データ並列性とモデル並列性に適合する汎用的,理論的に原理化された適応バッチサイズスケジュールを提案する。我々はPyTorch Fully Sharded Data Parallelを用いて,異なるサイズの言語モデルの事前学習を容易にする実践的な実装を開発する。提案手法は,Llamaファミリーのモデルの事前学習において,一定のバッチサイズとヒューリスティックなバッチサイズウォームアップスケジュールを上回り,最大30億のパラメータを持つより小さなモデルに特に焦点を絞っていることを実証的に示す。また、一般の滑らかな非凸目的に対して、アダムと共にそのような適応的なバッチサイズスケジュールに対する理論的収束保証を確立する。

関連論文リスト

Two-dimensional Sparse Parallelism for Large Scale Deep Learning Recommendation Model Training [9.47829333855806]
ディープラーニングレコメンデーションモデル(DLRM)では、スパース埋め込みテーブルはスパースカテゴリの特徴を管理する重要なコンポーネントである。本稿では,スケーラビリティの課題を克服する新しい2次元スパース並列化手法を提案する。提案手法は,モデル性能の同等性を保ちながら,トレーニング効率を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-08-05T19:12:18Z)
Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo [22.7130140114906]
固定計算予算下でのLLMのトレーニングにおいて,DiLoCoのスケーリング法挙動について検討した。 DiLoCoはモデルサイズで予測可能かつ堅牢にスケールする。十分に調整された場合、DiLoCoはモデルサイズでデータ並列トレーニングよりもスケールし、小さなモデルサイズでもデータ並列トレーニングよりパフォーマンスがよい。
論文参考訳（メタデータ） (2025-03-12T20:04:38Z)
The interplay between domain specialization and model size [8.653321928148547]
計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文参考訳（メタデータ） (2025-01-03T19:28:53Z)
Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-11T23:02:26Z)
OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance [65.48009829137824]
視覚言語命令チューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。我々は、データ、モデル、メモリの観点から計算負荷を再均衡させ、デバイス間でよりバランスのとれた計算を実現する。提案手法の有効性と一般化性は,様々なモデルやデータセットにまたがってさらに検証される。
論文参考訳（メタデータ） (2024-07-30T12:02:58Z)
More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。 a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文参考訳（メタデータ） (2024-04-30T12:05:48Z)
Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文参考訳（メタデータ） (2024-03-25T17:14:00Z)
Efficient Parallelization Layouts for Large-Scale Distributed Model Training [17.16249954009967]
本研究では,大規模言語モデルのトレーニング構成に関する総合的研究を行う。マイクロバッチサイズを1にすることで,トレーニングレイアウトの効率が向上するのが普通だ。最も効率的な構成により、さまざまなモデルサイズに対して最先端のトレーニング効率を達成できます。
論文参考訳（メタデータ） (2023-11-09T18:59:38Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。圧縮アルゴリズムの3つの共通クラスを実装し,評価する。我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文参考訳（メタデータ） (2023-01-06T18:58:09Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)
Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文参考訳（メタデータ） (2020-12-07T16:38:45Z)
Automatic Cross-Replica Sharding of Weight Update in Data-Parallel Training [12.36664837965624]
本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
論文参考訳（メタデータ） (2020-04-28T07:13:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。