論文の概要: Optimizing Distributed Training on Frontier for Large Language Models
- arxiv url: http://arxiv.org/abs/2312.12705v2
- Date: Thu, 21 Dec 2023 22:06:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:49:16.060627
- Title: Optimizing Distributed Training on Frontier for Large Language Models
- Title(参考訳): 大規模言語モデルのためのフロンティアにおける分散トレーニングの最適化
- Authors: Sajal Dash, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing
Cong, Feiyi Wang, Prasanna Balaprakash
- Abstract要約: 数十億のパラメータで大規模言語モデル(LLM)を訓練することは、重大な課題となり、かなりの計算資源を必要とする。
本研究では、世界初のエクサスケールスーパーコンピュータであるFrontierからこの計算を抽出するための効率的な分散トレーニング戦略を探求する。
- 参考スコア(独自算出の注目度): 7.251642875697334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable success as
foundational models, benefiting various downstream applications through
fine-tuning. Recent studies on loss scaling have demonstrated the superior
performance of larger LLMs compared to their smaller counterparts.
Nevertheless, training LLMs with billions of parameters poses significant
challenges and requires considerable computational resources. For example,
training a one trillion parameter GPT-style model on 20 trillion tokens
requires a staggering 120 million exaflops of computation. This research
explores efficient distributed training strategies to extract this computation
from Frontier, the world's first exascale supercomputer dedicated to open
science. We enable and investigate various model and data parallel training
techniques, such as tensor parallelism, pipeline parallelism, and sharded data
parallelism, to facilitate training a trillion-parameter model on Frontier. We
empirically assess these techniques and their associated parameters to
determine their impact on memory footprint, communication latency, and GPU's
computational efficiency. We analyze the complex interplay among these
techniques and find a strategy to combine them to achieve high throughput
through hyperparameter tuning. We have identified efficient strategies for
training large LLMs of varying sizes through empirical analysis and
hyperparameter tuning. For 22 Billion, 175 Billion, and 1 Trillion parameters,
we achieved GPU throughputs of $38.38\%$, $36.14\%$, and $31.96\%$,
respectively. For the training of the 175 Billion parameter model and the 1
Trillion parameter model, we achieved $100\%$ weak scaling efficiency on 1024
and 3072 MI250X GPUs, respectively. We also achieved strong scaling
efficiencies of $89\%$ and $87\%$ for these two models.
- Abstract(参考訳): 大規模言語モデル(LLM)は基礎モデルとして顕著に成功し、微調整によって様々な下流アプリケーションに恩恵をもたらした。
損失スケーリングに関する最近の研究は、より小型のLLMと比較して、より大きなLLMの優れた性能を示している。
それでも、数十億のパラメータでLSMを訓練することは重大な課題となり、かなりの計算資源を必要とする。
例えば、20兆のトークンで1兆のパラメータ GPT スタイルのモデルをトレーニングするには、1億2000万の計算処理が必要になります。
本研究は、オープンサイエンスに特化した世界初のエクサスケールスーパーコンピュータであるFrontierから、この計算を抽出する効率的な分散トレーニング戦略を探求する。
テンソル並列性,パイプライン並列性,シャードデータ並列性など,様々なモデルおよびデータ並列トレーニング技術を用いて,フロンティアにおける数兆パラメータモデルのトレーニングを容易にする。
メモリフットプリント,通信遅延,gpuの計算効率に与える影響を判定するために,これらの手法と関連するパラメータを実験的に評価した。
これらの手法の複雑な相互作用を分析し,ハイパーパラメータチューニングにより高いスループットを達成するための戦略を見出した。
実験分析とハイパーパラメータチューニングにより,様々なサイズの大規模llmを訓練するための効率的な戦略を見出した。
22億、175億、および1トリリオンのパラメータに対して、GPUスループットはそれぞれ38.38 %$、36.14 %$、31.96 %$を達成しました。
175億のパラメータモデルと1兆のパラメータモデルのトレーニングでは、それぞれ1024と3072MI250XのGPU上で100\%の弱いスケーリング効率を達成した。
また、この2つのモデルのスケーリング効率は、89\%$と87\%$でした。
関連論文リスト
- Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - Are Protein Language Models Compute Optimal? [0.0]
固定計算予算におけるモデルパラメータとトレーニングトークンの最適比について検討する。
本研究により, pLM サイズは計算予算とともにサブ線形にスケールし, モデルサイズが大きくなるにつれて性能が低下することが示された。
この研究は、より計算効率の良いPLMへの道を開き、そのトレーニングと計算生物学の実践的応用を民主化している。
論文 参考訳(メタデータ) (2024-06-11T13:32:11Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - A 4D Hybrid Algorithm to Scale Parallel Training to Thousands of GPUs [1.7481226034111275]
本稿では,並列訓練における通信を最適化するための4次元(4次元)アプローチを提案する。
AxoNNは最先端のフレームワークであるMegatron-LMを26%上回っている。
理論上のピークFLOP/sの57%、合計182 PFLOP/sを達成している。
論文 参考訳(メタデータ) (2023-05-22T22:41:49Z) - Persia: A Hybrid System Scaling Deep Learning Based Recommenders up to
100 Trillion Parameters [36.1028179125367]
ディープラーニングモデルは、現在のプロダクションレコメンデータシステムのランドスケープを支配しています。
近年、Googleの2016年モデルから、12兆のパラメータを持つ最新のFacebookモデルまで、モデルスケールの指数的な成長が見られた。
しかし、そのようなモデルのトレーニングは、産業規模のデータセンターでも困難である。
論文 参考訳(メタデータ) (2021-11-10T19:40:25Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。