Fugu-MT 論文翻訳(概要): Efficient Large-Scale Language Model Training on GPU Clusters

論文の概要: Efficient Large-Scale Language Model Training on GPU Clusters

arxiv url: http://arxiv.org/abs/2104.04473v1
Date: Fri, 9 Apr 2021 16:43:11 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-12 14:01:06.178556
Title: Efficient Large-Scale Language Model Training on GPU Clusters
Title（参考訳）: GPUクラスタによる大規模言語モデルの効率的な学習
Authors: Deepak Narayanan, Mohammad Shoeybi, Jared Casper, Patrick LeGresley, Mostofa Patwary, Vijay Korthikanti, Dmitri Vainbrand, Prethvi Kashinkunti, Julie Bernauer, Bryan Catanzaro, Amar Phanishayee, Matei Zaharia
Abstract要約: 大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
参考スコア（独自算出の注目度）: 19.00915720435389
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have led to state-of-the-art accuracies across a range of tasks. However, training these large models efficiently is challenging for two reasons: a) GPU memory capacity is limited, making it impossible to fit large models on a single GPU or even on a multi-GPU server; and b) the number of compute operations required to train these models can result in unrealistically long training times. New methods of model parallelism such as tensor and pipeline parallelism have been proposed to address these challenges; unfortunately, naive usage leads to fundamental scaling issues at thousands of GPUs due to various reasons, e.g., expensive cross-node communication or idle periods waiting on other devices. In this work, we show how to compose different types of parallelism methods (tensor, pipeline, and data paralleism) to scale to thousands of GPUs, achieving a two-order-of-magnitude increase in the sizes of models we can efficiently train compared to existing systems. We discuss various implementations of pipeline parallelism and propose a novel schedule that can improve throughput by more than 10% with comparable memory footprint compared to previously-proposed approaches. We quantitatively study the trade-offs between tensor, pipeline, and data parallelism, and provide intuition as to how to configure distributed training of a large model. The composition of these techniques allows us to perform training iterations on a model with 1 trillion parameters at 502 petaFLOP/s on 3072 GPUs with achieved per-GPU throughput of 52% of peak; previous efforts to train similar-sized models achieve much lower throughput (36% of theoretical peak). Our code has been open-sourced at https://github.com/nvidia/megatron-lm.
Abstract（参考訳）: 大規模な言語モデルは様々なタスクに最先端の精度をもたらす。しかし、これらの大きなモデルを効率的にトレーニングすることは、2つの理由により困難である。a) GPUメモリ容量が限られており、単一のGPUやマルチGPUサーバに大規模なモデルを適合させることが不可能である。テンソルやパイプラインの並列化といった新しいモデル並列化手法がこれらの課題に対処するために提案されているが、残念なことに、単純な使用法は、高価なクロスノード通信や、他のデバイスで待機するアイドル時間といった様々な理由により、数千のGPUにおいて基本的なスケーリング問題を引き起こす。本稿では、異なる種類の並列処理手法(テンソル、パイプライン、データパラレル)を何千ものgpuに拡張し、既存のシステムと比較して効率的にトレーニングできるモデルのサイズを2桁増加させる方法を示す。本稿では,パイプライン並列化の様々な実装について検討し,従来の手法と比較して,メモリフットプリントに匹敵するスループットを10%以上向上できる新しいスケジュールを提案する。テンソル,パイプライン,データ並列性のトレードオフを定量的に検討し,大規模モデルの分散トレーニングの設定方法に関する直観を提供する。これらの手法の合成により、3072GPU上で502ペタFLOP/sで1兆個のパラメータを持つモデル上で、GPU当たりのスループットがピークの52%に達した場合、同様のサイズのモデルをトレーニングする以前の取り組みは、より低いスループット(理論ピークの36%)を達成することができる。私たちのコードはhttps://github.com/nvidia/megatron-lmでオープンソース化されました。

関連論文リスト

Test-Time Training Done Right [61.8429380523577]
テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部を適応させることによってコンテキストをモデル化する。既存のTT手法は、長文データを扱う上で有効性を示すのに苦労した。我々は,大規模チャンクテストタイムトレーニング(LaCT)を開発し,ハードウェア利用率を桁違いに向上させる。
論文参考訳（メタデータ） (2025-05-29T17:50:34Z)
MoE Parallel Folding: Heterogeneous Parallelism Mappings for Efficient Large-Scale MoE Model Training with Megatron Core [11.40633051522406]
大規模MOEモデルのエンドツーエンドトレーニングフレームワークを提案する。 MoE Parallel Foldingは、Transformerモデルにおける注目とMoEの並列化を分離する新しい戦略である。フレキシブルなトークンレベルディスパッチはトークンドロップとトークンドロップレスのMoEトレーニングの両方をサポートする。
論文参考訳（メタデータ） (2025-04-21T08:39:47Z)
Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文参考訳（メタデータ） (2025-02-12T06:05:52Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。圧縮アルゴリズムの3つの共通クラスを実装し,評価する。我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文参考訳（メタデータ） (2023-01-06T18:58:09Z)
Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文参考訳（メタデータ） (2022-12-28T18:59:28Z)
Merak: An Efficient Distributed DNN Training Framework with Automated 3D Parallelism for Giant Foundation Models [14.903847751841221]
資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。 Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。 Merakは1.5、2.5、8.3、200億のパラメータを持つモデルの最先端の3D並列化フレームワークをそれぞれ1.42X、1.39X、1.43X、1.61Xまで高速化することができる。
論文参考訳（メタデータ） (2022-06-10T09:15:48Z)
Hydra: A System for Large Multi-Model Deep Learning [3.571623412954477]
本稿では,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間のレイヤ群を移動させる手法である'model spilling'を提案する。次に,マルチモデルトレーニングワークロードの効率を上げるために,こぼれを利用した新しいテクニックのセットを提案する。実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
論文参考訳（メタデータ） (2021-10-16T18:13:57Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文参考訳（メタデータ） (2021-10-08T04:24:51Z)
Maximizing Parallelism in Distributed Training for Huge Neural Networks [7.471658821614902]
本稿では,大規模言語モデルの高速化を目的とした3次元モデル並列化手法を提案する。提案手法は,既存の1-Dモデルと2-Dモデルによる並列処理よりも,メモリと通信コストを小さくする。
論文参考訳（メタデータ） (2021-05-30T07:41:08Z)
ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning [9.322987670900778]
ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするための数十から数百兆のパラメータを持つモデルに適合できます。 1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
論文参考訳（メタデータ） (2021-04-16T02:22:12Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)
ZeRO-Offload: Democratizing Billion-Scale Model Training [16.43347399073034]
ZeRO-Offloadは、データと計算をCPUにオフロードすることで、大規模なモデルトレーニングを可能にする。単一のGPU上で13億以上のパラメータを持つモデルをトレーニングでき、PyTorchのような一般的なフレームワークと比較して10倍のサイズになる。
論文参考訳（メタデータ） (2021-01-18T02:11:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。