論文の概要: Efficient Large-Scale Language Model Training on GPU Clusters
- arxiv url: http://arxiv.org/abs/2104.04473v1
- Date: Fri, 9 Apr 2021 16:43:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:01:06.178556
- Title: Efficient Large-Scale Language Model Training on GPU Clusters
- Title(参考訳): GPUクラスタによる大規模言語モデルの効率的な学習
- Authors: Deepak Narayanan, Mohammad Shoeybi, Jared Casper, Patrick LeGresley,
Mostofa Patwary, Vijay Korthikanti, Dmitri Vainbrand, Prethvi Kashinkunti,
Julie Bernauer, Bryan Catanzaro, Amar Phanishayee, Matei Zaharia
- Abstract要約: 大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
- 参考スコア(独自算出の注目度): 19.00915720435389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have led to state-of-the-art accuracies across a range
of tasks. However, training these large models efficiently is challenging for
two reasons: a) GPU memory capacity is limited, making it impossible to fit
large models on a single GPU or even on a multi-GPU server; and b) the number
of compute operations required to train these models can result in
unrealistically long training times. New methods of model parallelism such as
tensor and pipeline parallelism have been proposed to address these challenges;
unfortunately, naive usage leads to fundamental scaling issues at thousands of
GPUs due to various reasons, e.g., expensive cross-node communication or idle
periods waiting on other devices.
In this work, we show how to compose different types of parallelism methods
(tensor, pipeline, and data paralleism) to scale to thousands of GPUs,
achieving a two-order-of-magnitude increase in the sizes of models we can
efficiently train compared to existing systems. We discuss various
implementations of pipeline parallelism and propose a novel schedule that can
improve throughput by more than 10% with comparable memory footprint compared
to previously-proposed approaches. We quantitatively study the trade-offs
between tensor, pipeline, and data parallelism, and provide intuition as to how
to configure distributed training of a large model. The composition of these
techniques allows us to perform training iterations on a model with 1 trillion
parameters at 502 petaFLOP/s on 3072 GPUs with achieved per-GPU throughput of
52% of peak; previous efforts to train similar-sized models achieve much lower
throughput (36% of theoretical peak). Our code has been open-sourced at
https://github.com/nvidia/megatron-lm.
- Abstract(参考訳): 大規模な言語モデルは様々なタスクに最先端の精度をもたらす。
しかし、これらの大きなモデルを効率的にトレーニングすることは、2つの理由により困難である。a) GPUメモリ容量が限られており、単一のGPUやマルチGPUサーバに大規模なモデルを適合させることが不可能である。
テンソルやパイプラインの並列化といった新しいモデル並列化手法がこれらの課題に対処するために提案されているが、残念なことに、単純な使用法は、高価なクロスノード通信や、他のデバイスで待機するアイドル時間といった様々な理由により、数千のGPUにおいて基本的なスケーリング問題を引き起こす。
本稿では、異なる種類の並列処理手法(テンソル、パイプライン、データパラレル)を何千ものgpuに拡張し、既存のシステムと比較して効率的にトレーニングできるモデルのサイズを2桁増加させる方法を示す。
本稿では,パイプライン並列化の様々な実装について検討し,従来の手法と比較して,メモリフットプリントに匹敵するスループットを10%以上向上できる新しいスケジュールを提案する。
テンソル,パイプライン,データ並列性のトレードオフを定量的に検討し,大規模モデルの分散トレーニングの設定方法に関する直観を提供する。
これらの手法の合成により、3072GPU上で502ペタFLOP/sで1兆個のパラメータを持つモデル上で、GPU当たりのスループットがピークの52%に達した場合、同様のサイズのモデルをトレーニングする以前の取り組みは、より低いスループット(理論ピークの36%)を達成することができる。
私たちのコードはhttps://github.com/nvidia/megatron-lmでオープンソース化されました。
関連論文リスト
- SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - Merak: An Efficient Distributed DNN Training Framework with Automated 3D
Parallelism for Giant Foundation Models [14.903847751841221]
資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。
Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。
Merakは1.5、2.5、8.3、200億のパラメータを持つモデルの最先端の3D並列化フレームワークをそれぞれ1.42X、1.39X、1.43X、1.61Xまで高速化することができる。
論文 参考訳(メタデータ) (2022-06-10T09:15:48Z) - Hydra: A System for Large Multi-Model Deep Learning [3.571623412954477]
本稿では,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間のレイヤ群を移動させる手法である'model spilling'を提案する。
次に,マルチモデルトレーニングワークロードの効率を上げるために,こぼれを利用した新しいテクニックのセットを提案する。
実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
論文 参考訳(メタデータ) (2021-10-16T18:13:57Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Maximizing Parallelism in Distributed Training for Huge Neural Networks [7.471658821614902]
本稿では,大規模言語モデルの高速化を目的とした3次元モデル並列化手法を提案する。
提案手法は,既存の1-Dモデルと2-Dモデルによる並列処理よりも,メモリと通信コストを小さくする。
論文 参考訳(メタデータ) (2021-05-30T07:41:08Z) - ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep
Learning [9.322987670900778]
ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするための数十から数百兆のパラメータを持つモデルに適合できます。
1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
論文 参考訳(メタデータ) (2021-04-16T02:22:12Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - ZeRO-Offload: Democratizing Billion-Scale Model Training [16.43347399073034]
ZeRO-Offloadは、データと計算をCPUにオフロードすることで、大規模なモデルトレーニングを可能にする。
単一のGPU上で13億以上のパラメータを持つモデルをトレーニングでき、PyTorchのような一般的なフレームワークと比較して10倍のサイズになる。
論文 参考訳(メタデータ) (2021-01-18T02:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。