論文の概要: Parallel Scaling Law for Language Models
- arxiv url: http://arxiv.org/abs/2505.10475v1
- Date: Thu, 15 May 2025 16:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.417526
- Title: Parallel Scaling Law for Language Models
- Title(参考訳): 言語モデルの並列スケーリング法則
- Authors: Mouxiang Chen, Binyuan Hui, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Jianling Sun, Junyang Lin, Zhongxin Liu,
- Abstract要約: モデルの並列計算をトレーニング時間と推論時間の両方で増加させるという,3番目の,より推論効率のよいスケーリングパラダイムを導入します。
理論的に新しいスケーリング法則を提案し,それを大規模事前学習により検証することにより,$P$並列ストリームを持つモデルがより優れた推論効率を示しつつパラメータを$O(log P)$にスケーリングするのと類似していることを示す。
- 参考スコア(独自算出の注目度): 45.799251718923614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is commonly believed that scaling language models should commit a significant space or time cost, by increasing the parameters (parameter scaling) or output tokens (inference-time scaling). We introduce the third and more inference-efficient scaling paradigm: increasing the model's parallel computation during both training and inference time. We apply $P$ diverse and learnable transformations to the input, execute forward passes of the model in parallel, and dynamically aggregate the $P$ outputs. This method, namely parallel scaling (ParScale), scales parallel computation by reusing existing parameters and can be applied to any model structure, optimization procedure, data, or task. We theoretically propose a new scaling law and validate it through large-scale pre-training, which shows that a model with $P$ parallel streams is similar to scaling the parameters by $O(\log P)$ while showing superior inference efficiency. For example, ParScale can use up to 22$\times$ less memory increase and 6$\times$ less latency increase compared to parameter scaling that achieves the same performance improvement. It can also recycle an off-the-shelf pre-trained model into a parallelly scaled one by post-training on a small amount of tokens, further reducing the training budget. The new scaling law we discovered potentially facilitates the deployment of more powerful models in low-resource scenarios, and provides an alternative perspective for the role of computation in machine learning.
- Abstract(参考訳): 言語モデルのスケーリングは、パラメータ(パラメータスケーリング)や出力トークン(推論時間スケーリング)を増大させることによって、かなりのスペースや時間コストを消費すべきである、と一般的に信じられている。
モデルの並列計算をトレーニング時間と推論時間の両方で増加させるという,3番目の,より推論効率のよいスケーリングパラダイムを導入します。
入力に$P$の多様で学習可能な変換を適用し、モデルの前方通過を並列に実行し、$P$の出力を動的に集約する。
この手法、すなわち並列スケーリング(ParScale)は、既存のパラメータを再利用することで並列計算をスケールし、任意のモデル構造、最適化手順、データ、タスクに適用できる。
理論的に新しいスケーリング法則を提案し,それを大規模事前学習により検証することにより,$P$並列ストリームを持つモデルがより優れた推論効率を示しつつパラメータを$O(\log P)$にスケーリングするのと類似していることを示す。
例えば、ParScaleは、同じパフォーマンス改善を実現するパラメータスケーリングと比較して、最大22$\times$メモリ増加率と6$\times$レイテンシ増加率を削減できる。
また、少量のトークンでトレーニングした後、トレーニング予算を減らして、市販の事前訓練モデルを並列スケールに再利用することもできる。
私たちが発見した新しいスケーリング法則は、低リソースシナリオにおけるより強力なモデルのデプロイを促進する可能性があり、機械学習における計算の役割に対する代替的な視点を提供する。
関連論文リスト
- Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo [22.7130140114906]
固定計算予算下でのLLMのトレーニングにおいて,DiLoCoのスケーリング法挙動について検討した。
DiLoCoはモデルサイズで予測可能かつ堅牢にスケールする。
十分に調整された場合、DiLoCoはモデルサイズでデータ並列トレーニングよりもスケールし、小さなモデルサイズでもデータ並列トレーニングよりパフォーマンスがよい。
論文 参考訳(メタデータ) (2025-03-12T20:04:38Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Adaptive Batch Size Schedules for Distributed Training of Language Models with Data and Model Parallelism [17.006352664497122]
PyTorch Fully Shard Data Parallel を用いた実用的な実装を開発した。
提案手法が一定のバッチサイズより優れていることを示す。
また、このような適応型バッチサイズスケジュールについても理論的に保証する。
論文 参考訳(メタデータ) (2024-12-30T17:55:28Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。