Fugu-MT 論文翻訳(概要): Optimizing Distributed Training on Frontier for Large Language Models

論文の概要: Optimizing Distributed Training on Frontier for Large Language Models

arxiv url: http://arxiv.org/abs/2312.12705v1
Date: Wed, 20 Dec 2023 02:03:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 17:14:00.713757
Title: Optimizing Distributed Training on Frontier for Large Language Models
Title（参考訳）: 大規模言語モデルのためのフロンティアにおける分散トレーニングの最適化
Authors: Sajal Dash, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang, Prasanna Balaprakash
Abstract要約: 大きな言語モデル(LLM)は基礎モデルとして大きな成功を収めており、多くの下流アプリケーションは微調整の恩恵を受けています。 20兆のトークンで1兆GPTスタイルのモデルをトレーニングするには、1億2000万のアウトフロロップを実行する必要があります。この研究はフロンティア・エクサスケール・スーパーコンピュータ上で1兆パラメータモデルを訓練するための効率的な分散戦略を探究する。
参考スコア（独自算出の注目度）: 7.251642875697334
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLM) are showing tremendous success as foundation models, and many downstream applications benefit from fine-tuning. Prior works on loss scaling have demonstrated that the larger LLMs perform better than their smaller counterparts. However, training LLMs with billions of parameters requires considerable computational resources; to train a one trillion GPT-style model on 20 trillion tokens, we need to perform 120 million exaflops. Frontier is the world's first and fastest exascale supercomputer for open science and is equipped with 75264 MI250X GPUs. This work explores efficient distributed strategies such as tensor parallelism, pipeline parallelism, and sharded data parallelism to train a trillion-parameter model on the Frontier exascale supercomputer. We analyze these distributed training techniques and associated parameters individually to decide which techniques to use and what associated parameters to select for a particular technique. We perform hyperparameter tuning on these techniques to understand their complex interplay. Combined with these two tuning efforts, we have found optimal strategies to train three models of size 22B, 175B, and 1T parameters with $38.38\%$ , $36.14\%$ , and $31.96\%$ achieved throughput. For training the 175B parameter model and 1T model, we have achieved $100\%$ weak scaling efficiency and $89\%$ and $87\%$ strong scaling efficiency, respectively. Our work presents a set of strategies for distributed training of LLMs through experimental findings and hyperparameter tuning.
Abstract（参考訳）: 大きな言語モデル(LLM)は基礎モデルとして大きな成功を収めており、多くの下流アプリケーションは微調整の恩恵を受けている。損失スケーリングに関する以前の研究は、より大きなLCMがより小さいものよりも優れた性能を示すことを示した。しかし、20兆のトークン上で1兆GPTスタイルのモデルをトレーニングするには、1億2000万のアウトフロロップを実行する必要がある。 Frontierはオープンサイエンスのための世界初の高速なエクサスケールスーパーコンピュータであり、75264 MI250X GPUを搭載している。この研究は、テンソル並列性、パイプライン並列性、シャードデータ並列性といった効率的な分散戦略を探求し、フロンティアエクサスケールスーパーコンピュータ上で1兆パラメータモデルをトレーニングする。分散トレーニング手法と関連するパラメータを個別に分析し、どのテクニックを使うか、どのパラメータを選択するかを決定する。我々はこれらの技術を用いてハイパーパラメータチューニングを行い、それらの複雑な相互作用を理解する。これら2つのチューニングの取り組みを組み合わせることで、22B、175B、および1Tパラメータの3つのモデルに38.38\%$、36.14\%$、31.96\%$のスループットでトレーニングする最適な戦略を見出した。 175bのパラメータモデルと1tモデルのトレーニングでは、スケーリング効率が弱く、それぞれ89\%$と87\%$の強力なスケーリング効率を達成しました。本研究は,実験結果とハイパーパラメータチューニングを通じて,LLMの分散トレーニングのための一連の戦略を示す。

関連論文リスト

Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs [123.25404278506585]
135億のパラメータと高密度トランスフォーマーモジュールを持つ大規模言語モデル(LLM)であるPangu Ultraについて述べる。このような大規模トレーニングを効率的に行うためには,8,192個のAscend NPUと一連のシステム最適化を用いる。我々の調査では、Ascend NPUは1000億以上のパラメータを持つ高密度モデルを効率的かつ効果的に訓練できることを示した。
論文参考訳（メタデータ） (2025-04-10T15:41:51Z)
Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。 Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文参考訳（メタデータ） (2025-03-07T04:43:39Z)
Predictable Scale: Part I, Step Law -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [59.369484219304866]
本研究では,100兆のトークンをスクラッチから3,700以上の大規模言語モデル(LLM)に対する前例のない実証的研究を行った。我々は、固定モデルサイズ(N$)とデータセットサイズ(D$)で、ハイパーパラメータのランドスケープは広い最適度で凸性を示すことを実証的に観察した。この洞察に基づいて、我々はステップ法を正式に定義し、実証的に検証する: 最適な学習レートは、$N$と$D$との関係に従うが、最適なバッチサイズは、主に$D$の影響を受け、主に$N$に不変である。
論文参考訳（メタデータ） (2025-03-06T18:58:29Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,CoLAとそのメモリ効率向上実装であるCoLA-Mを紹介する。モデルアクティベーションにおいて広く観測される低ランク構造を利用して、モデルサイズを削減し、モデルのキャパシティを向上し、トレーニング効率を向上させる。 6000万から70億のパラメータを持つLLaMAモデルの実験では、CoLAはコンピューティングコストを$bf 2pmbtimes$で削減し、フルランクレベルのパフォーマンスを維持しながら、トレーニングスループットを$bf 1.86pmbtimes$で改善している。
論文参考訳（メタデータ） (2025-02-16T01:05:16Z)
Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文参考訳（メタデータ） (2025-02-12T06:05:52Z)
Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文参考訳（メタデータ） (2024-11-04T14:58:37Z)
Are Protein Language Models Compute Optimal? [0.0]
固定計算予算におけるモデルパラメータとトレーニングトークンの最適比について検討する。本研究により, pLM サイズは計算予算とともにサブ線形にスケールし, モデルサイズが大きくなるにつれて性能が低下することが示された。この研究は、より計算効率の良いPLMへの道を開き、そのトレーニングと計算生物学の実践的応用を民主化している。
論文参考訳（メタデータ） (2024-06-11T13:32:11Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文参考訳（メタデータ） (2023-09-15T16:29:27Z)
A 4D Hybrid Algorithm to Scale Parallel Training to Thousands of GPUs [1.7481226034111275]
本稿では,並列訓練における通信を最適化するための4次元(4次元)アプローチを提案する。 AxoNNは最先端のフレームワークであるMegatron-LMを26%上回っている。理論上のピークFLOP/sの57%、合計182 PFLOP/sを達成している。
論文参考訳（メタデータ） (2023-05-22T22:41:49Z)
Persia: A Hybrid System Scaling Deep Learning Based Recommenders up to 100 Trillion Parameters [36.1028179125367]
ディープラーニングモデルは、現在のプロダクションレコメンデータシステムのランドスケープを支配しています。近年、Googleの2016年モデルから、12兆のパラメータを持つ最新のFacebookモデルまで、モデルスケールの指数的な成長が見られた。しかし、そのようなモデルのトレーニングは、産業規模のデータセンターでも困難である。
論文参考訳（メタデータ） (2021-11-10T19:40:25Z)
M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文参考訳（メタデータ） (2021-10-08T04:24:51Z)
CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文参考訳（メタデータ） (2021-06-20T15:43:54Z)
Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文参考訳（メタデータ） (2021-05-31T16:12:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。