論文の概要: Merak: An Efficient Distributed DNN Training Framework with Automated 3D
Parallelism for Giant Foundation Models
- arxiv url: http://arxiv.org/abs/2206.04959v4
- Date: Tue, 21 Mar 2023 06:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 04:07:58.443443
- Title: Merak: An Efficient Distributed DNN Training Framework with Automated 3D
Parallelism for Giant Foundation Models
- Title(参考訳): Merak: 巨大ファンデーションモデルのための3D並列処理を自動化する分散DNNトレーニングフレームワーク
- Authors: Zhiquan Lai, Shengwei Li, Xudong Tang, Keshi Ge, Weijie Liu, Yabo
Duan, Linbo Qiao, Dongsheng Li
- Abstract要約: 資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。
Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。
Merakは1.5、2.5、8.3、200億のパラメータを持つモデルの最先端の3D並列化フレームワークをそれぞれ1.42X、1.39X、1.43X、1.61Xまで高速化することができる。
- 参考スコア(独自算出の注目度): 14.903847751841221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models are becoming the dominant deep learning technologies.
Pretraining a foundation model is always time-consumed due to the large scale
of both the model parameter and training dataset. Besides being
computing-intensive, the training process is extremely memory-intensive and
communication-intensive. These features make it necessary to apply 3D
parallelism, which integrates data parallelism, pipeline model parallelism and
tensor model parallelism, to achieve high training efficiency.
To achieve this goal, some custom software frameworks such as Megatron-LM and
DeepSpeed are developed. However, current 3D parallelism frameworks still meet
two issues: i) they are not transparent to model developers, which need to
manually modify the model to parallelize training. ii) their utilization of
computation, GPU memory and network bandwidth are not sufficient. We propose
Merak, an automated 3D parallelism deep learning training framework with high
resource utilization. Merak automatically deploys with an automatic model
partitioner, which uses a graph sharding algorithm on a proxy representation of
the model. Merak also presents the non-intrusive API for scaling out foundation
model training with minimal code modification. In addition, we design a
high-performance 3D parallel runtime engine in Merak. It uses several
techniques to exploit available training resources, including shifted critical
path pipeline schedule that brings a higher computation utilization,
stage-aware recomputation that makes use of idle worker memory, and
sub-pipelined tensor model parallelism that overlaps communication and
computation. Experiments on 64 GPUs show Merak can speedup the training
performance over the state-of-the-art 3D parallelism frameworks of models with
1.5, 2.5, 8.3, and 20 billion parameters by up to 1.42X, 1.39X, 1.43X, and
1.61X, respectively.
- Abstract(参考訳): 基礎モデルが主要なディープラーニング技術になりつつある。
基礎モデルの事前トレーニングは、モデルパラメータとトレーニングデータセットの両方が大規模であるため、常に時間を要する。
コンピュータ集約性に加えて、トレーニングプロセスは極めてメモリ集約的でコミュニケーション集約である。
これらの特徴は、高いトレーニング効率を達成するために、データ並列性、パイプラインモデル並列性、テンソルモデル並列性を統合する3D並列性を適用する必要がある。
この目標を達成するために、Megatron-LMやDeepSpeedといったカスタムソフトウェアフレームワークが開発されている。
しかし、現在の3d並列処理フレームワークはまだ2つの課題を満たしている。
i) モデルを手動で修正してトレーニングを並列化する必要があるモデル開発者にとっては透過的ではない。
二 計算量、GPUメモリ及びネットワーク帯域の利用は十分ではない。
資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。
Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。
Merak氏はまた、最小限のコード修正で基礎モデルのトレーニングをスケールアウトするための非侵入的なAPIも発表した。
さらに,Merakに高性能な3D並列ランタイムエンジンを設計する。
利用可能なトレーニングリソースを利用するには、高い計算利用率をもたらすシフトクリティカルパスパイプラインスケジュール、アイドルワーカメモリを使用するステージアウェアな再計算、通信と計算をオーバーラップするサブパイプライン型テンソルモデル並列処理など、いくつかのテクニックを使用する。
64GPUの実験では,1.5,2.5,8.3,200億のパラメータを持つモデルの最先端の3D並列化フレームワーク上で,それぞれ1.42X,1.39X,1.43X,1.61Xのトレーニングパフォーマンスが向上している。
関連論文リスト
- Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Maximizing Parallelism in Distributed Training for Huge Neural Networks [7.471658821614902]
本稿では,大規模言語モデルの高速化を目的とした3次元モデル並列化手法を提案する。
提案手法は,既存の1-Dモデルと2-Dモデルによる並列処理よりも,メモリと通信コストを小さくする。
論文 参考訳(メタデータ) (2021-05-30T07:41:08Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。