論文の概要: Optimizing Distributed Training on Frontier for Large Language Models
- arxiv url: http://arxiv.org/abs/2312.12705v1
- Date: Wed, 20 Dec 2023 02:03:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:14:00.713757
- Title: Optimizing Distributed Training on Frontier for Large Language Models
- Title(参考訳): 大規模言語モデルのためのフロンティアにおける分散トレーニングの最適化
- Authors: Sajal Dash, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing
Cong, Feiyi Wang, Prasanna Balaprakash
- Abstract要約: 大きな言語モデル(LLM)は基礎モデルとして大きな成功を収めており、多くの下流アプリケーションは微調整の恩恵を受けています。
20兆のトークンで1兆GPTスタイルのモデルをトレーニングするには、1億2000万のアウトフロロップを実行する必要があります。
この研究はフロンティア・エクサスケール・スーパーコンピュータ上で1兆パラメータモデルを訓練するための効率的な分散戦略を探究する。
- 参考スコア(独自算出の注目度): 7.251642875697334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLM) are showing tremendous success as foundation
models, and many downstream applications benefit from fine-tuning. Prior works
on loss scaling have demonstrated that the larger LLMs perform better than
their smaller counterparts. However, training LLMs with billions of parameters
requires considerable computational resources; to train a one trillion
GPT-style model on 20 trillion tokens, we need to perform 120 million exaflops.
Frontier is the world's first and fastest exascale supercomputer for open
science and is equipped with 75264 MI250X GPUs. This work explores efficient
distributed strategies such as tensor parallelism, pipeline parallelism, and
sharded data parallelism to train a trillion-parameter model on the Frontier
exascale supercomputer. We analyze these distributed training techniques and
associated parameters individually to decide which techniques to use and what
associated parameters to select for a particular technique. We perform
hyperparameter tuning on these techniques to understand their complex
interplay. Combined with these two tuning efforts, we have found optimal
strategies to train three models of size 22B, 175B, and 1T parameters with
$38.38\%$ , $36.14\%$ , and $31.96\%$ achieved throughput. For training the
175B parameter model and 1T model, we have achieved $100\%$ weak scaling
efficiency and $89\%$ and $87\%$ strong scaling efficiency, respectively. Our
work presents a set of strategies for distributed training of LLMs through
experimental findings and hyperparameter tuning.
- Abstract(参考訳): 大きな言語モデル(LLM)は基礎モデルとして大きな成功を収めており、多くの下流アプリケーションは微調整の恩恵を受けている。
損失スケーリングに関する以前の研究は、より大きなLCMがより小さいものよりも優れた性能を示すことを示した。
しかし、20兆のトークン上で1兆GPTスタイルのモデルをトレーニングするには、1億2000万のアウトフロロップを実行する必要がある。
Frontierはオープンサイエンスのための世界初の高速なエクサスケールスーパーコンピュータであり、75264 MI250X GPUを搭載している。
この研究は、テンソル並列性、パイプライン並列性、シャードデータ並列性といった効率的な分散戦略を探求し、フロンティアエクサスケールスーパーコンピュータ上で1兆パラメータモデルをトレーニングする。
分散トレーニング手法と関連するパラメータを個別に分析し、どのテクニックを使うか、どのパラメータを選択するかを決定する。
我々はこれらの技術を用いてハイパーパラメータチューニングを行い、それらの複雑な相互作用を理解する。
これら2つのチューニングの取り組みを組み合わせることで、22B、175B、および1Tパラメータの3つのモデルに38.38\%$、36.14\%$、31.96\%$のスループットでトレーニングする最適な戦略を見出した。
175bのパラメータモデルと1tモデルのトレーニングでは、スケーリング効率が弱く、それぞれ89\%$と87\%$の強力なスケーリング効率を達成しました。
本研究は,実験結果とハイパーパラメータチューニングを通じて,LLMの分散トレーニングのための一連の戦略を示す。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,CoLAとそのメモリ効率向上実装であるCoLA-Mを紹介する。
モデルアクティベーションにおいて広く観測される低ランク構造を利用して、モデルサイズを削減し、モデルのキャパシティを向上し、トレーニング効率を向上させる。
6000万から70億のパラメータを持つLLaMAモデルの実験では、CoLAはコンピューティングコストを$bf 2pmbtimes$で削減し、フルランクレベルのパフォーマンスを維持しながら、トレーニングスループットを$bf 1.86pmbtimes$で改善している。
論文 参考訳(メタデータ) (2025-02-16T01:05:16Z) - Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。
本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文 参考訳(メタデータ) (2025-02-12T06:05:52Z) - Are Protein Language Models Compute Optimal? [0.0]
固定計算予算におけるモデルパラメータとトレーニングトークンの最適比について検討する。
本研究により, pLM サイズは計算予算とともにサブ線形にスケールし, モデルサイズが大きくなるにつれて性能が低下することが示された。
この研究は、より計算効率の良いPLMへの道を開き、そのトレーニングと計算生物学の実践的応用を民主化している。
論文 参考訳(メタデータ) (2024-06-11T13:32:11Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。