論文の概要: Optimizing Distributed Training on Frontier for Large Language Models
- arxiv url: http://arxiv.org/abs/2312.12705v1
- Date: Wed, 20 Dec 2023 02:03:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:14:00.713757
- Title: Optimizing Distributed Training on Frontier for Large Language Models
- Title(参考訳): 大規模言語モデルのためのフロンティアにおける分散トレーニングの最適化
- Authors: Sajal Dash, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing
Cong, Feiyi Wang, Prasanna Balaprakash
- Abstract要約: 大きな言語モデル(LLM)は基礎モデルとして大きな成功を収めており、多くの下流アプリケーションは微調整の恩恵を受けています。
20兆のトークンで1兆GPTスタイルのモデルをトレーニングするには、1億2000万のアウトフロロップを実行する必要があります。
この研究はフロンティア・エクサスケール・スーパーコンピュータ上で1兆パラメータモデルを訓練するための効率的な分散戦略を探究する。
- 参考スコア(独自算出の注目度): 7.251642875697334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLM) are showing tremendous success as foundation
models, and many downstream applications benefit from fine-tuning. Prior works
on loss scaling have demonstrated that the larger LLMs perform better than
their smaller counterparts. However, training LLMs with billions of parameters
requires considerable computational resources; to train a one trillion
GPT-style model on 20 trillion tokens, we need to perform 120 million exaflops.
Frontier is the world's first and fastest exascale supercomputer for open
science and is equipped with 75264 MI250X GPUs. This work explores efficient
distributed strategies such as tensor parallelism, pipeline parallelism, and
sharded data parallelism to train a trillion-parameter model on the Frontier
exascale supercomputer. We analyze these distributed training techniques and
associated parameters individually to decide which techniques to use and what
associated parameters to select for a particular technique. We perform
hyperparameter tuning on these techniques to understand their complex
interplay. Combined with these two tuning efforts, we have found optimal
strategies to train three models of size 22B, 175B, and 1T parameters with
$38.38\%$ , $36.14\%$ , and $31.96\%$ achieved throughput. For training the
175B parameter model and 1T model, we have achieved $100\%$ weak scaling
efficiency and $89\%$ and $87\%$ strong scaling efficiency, respectively. Our
work presents a set of strategies for distributed training of LLMs through
experimental findings and hyperparameter tuning.
- Abstract(参考訳): 大きな言語モデル(LLM)は基礎モデルとして大きな成功を収めており、多くの下流アプリケーションは微調整の恩恵を受けている。
損失スケーリングに関する以前の研究は、より大きなLCMがより小さいものよりも優れた性能を示すことを示した。
しかし、20兆のトークン上で1兆GPTスタイルのモデルをトレーニングするには、1億2000万のアウトフロロップを実行する必要がある。
Frontierはオープンサイエンスのための世界初の高速なエクサスケールスーパーコンピュータであり、75264 MI250X GPUを搭載している。
この研究は、テンソル並列性、パイプライン並列性、シャードデータ並列性といった効率的な分散戦略を探求し、フロンティアエクサスケールスーパーコンピュータ上で1兆パラメータモデルをトレーニングする。
分散トレーニング手法と関連するパラメータを個別に分析し、どのテクニックを使うか、どのパラメータを選択するかを決定する。
我々はこれらの技術を用いてハイパーパラメータチューニングを行い、それらの複雑な相互作用を理解する。
これら2つのチューニングの取り組みを組み合わせることで、22B、175B、および1Tパラメータの3つのモデルに38.38\%$、36.14\%$、31.96\%$のスループットでトレーニングする最適な戦略を見出した。
175bのパラメータモデルと1tモデルのトレーニングでは、スケーリング効率が弱く、それぞれ89\%$と87\%$の強力なスケーリング効率を達成しました。
本研究は,実験結果とハイパーパラメータチューニングを通じて,LLMの分散トレーニングのための一連の戦略を示す。
関連論文リスト
- Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - Are Protein Language Models Compute Optimal? [0.0]
固定計算予算におけるモデルパラメータとトレーニングトークンの最適比について検討する。
本研究により, pLM サイズは計算予算とともにサブ線形にスケールし, モデルサイズが大きくなるにつれて性能が低下することが示された。
この研究は、より計算効率の良いPLMへの道を開き、そのトレーニングと計算生物学の実践的応用を民主化している。
論文 参考訳(メタデータ) (2024-06-11T13:32:11Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - A 4D Hybrid Algorithm to Scale Parallel Training to Thousands of GPUs [1.7481226034111275]
本稿では,並列訓練における通信を最適化するための4次元(4次元)アプローチを提案する。
AxoNNは最先端のフレームワークであるMegatron-LMを26%上回っている。
理論上のピークFLOP/sの57%、合計182 PFLOP/sを達成している。
論文 参考訳(メタデータ) (2023-05-22T22:41:49Z) - Persia: A Hybrid System Scaling Deep Learning Based Recommenders up to
100 Trillion Parameters [36.1028179125367]
ディープラーニングモデルは、現在のプロダクションレコメンデータシステムのランドスケープを支配しています。
近年、Googleの2016年モデルから、12兆のパラメータを持つ最新のFacebookモデルまで、モデルスケールの指数的な成長が見られた。
しかし、そのようなモデルのトレーニングは、産業規模のデータセンターでも困難である。
論文 参考訳(メタデータ) (2021-11-10T19:40:25Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。