論文の概要: MCR-DL: Mix-and-Match Communication Runtime for Deep Learning
- arxiv url: http://arxiv.org/abs/2303.08374v1
- Date: Wed, 15 Mar 2023 05:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 18:15:31.712909
- Title: MCR-DL: Mix-and-Match Communication Runtime for Deep Learning
- Title(参考訳): MCR-DL: ディープラーニングのためのミックス・アンド・マッチ通信ランタイム
- Authors: Quentin Anthony, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He, Aamir
Shafi, Mustafa Abduljabbar, Hari Subramoni, Dhabaleswar Panda
- Abstract要約: 大規模なディープラーニングモデルをトレーニングするには、効率を維持するために高度な並列処理戦略が必要である。
我々は,全てのポイント・ツー・ポイントおよび集合操作をサポートするDL通信フレームワークであるMCR-DLを提案する。
MCR-DLには、与えられた入力テンソルの最良の通信バックエンドを動的に選択するためのチューニングスイートが付属している。
- 参考スコア(独自算出の注目度): 9.320429463027686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the training requirements of many state-of-the-art Deep
Learning (DL) models have scaled beyond the compute and memory capabilities of
a single processor, and necessitated distribution among processors. Training
such massive models necessitates advanced parallelism strategies to maintain
efficiency. However, such distributed DL parallelism strategies require a
varied mixture of collective and point-to-point communication operations across
a broad range of message sizes and scales. Examples of models using advanced
parallelism strategies include Deep Learning Recommendation Models (DLRM) and
Mixture-of-Experts (MoE). Communication libraries' performance varies wildly
across different communication operations, scales, and message sizes. We
propose MCR-DL: an extensible DL communication framework that supports all
point-to-point and collective operations while enabling users to dynamically
mix-and-match communication backends for a given operation without deadlocks.
MCR-DL also comes packaged with a tuning suite for dynamically selecting the
best communication backend for a given input tensor. We select DeepSpeed-MoE
and DLRM as candidate DL models and demonstrate a 31% improvement in DS-MoE
throughput on 256 V100 GPUs on the Lassen HPC system. Further, we achieve a 20%
throughput improvement in a dense Megatron-DeepSpeed model and a 25% throughput
improvement in DLRM on 32 A100 GPUs with the Theta-GPU HPC system.
- Abstract(参考訳): 近年、多くの最先端のディープラーニング(DL)モデルのトレーニング要件は、単一のプロセッサの計算能力やメモリ能力を超えてスケールし、プロセッサ間の分散を必要としている。
このような大規模モデルのトレーニングには、効率を維持するために高度な並列処理戦略が必要となる。
しかし、このような分散DL並列化戦略は、幅広いメッセージサイズとスケールにわたる集合的およびポイント・ツー・ポイントの通信操作の様々な混合を必要とする。
高度な並列化戦略を用いたモデルの例としては、Deep Learning Recommendation Models (DLRM)やMixture-of-Experts (MoE)がある。
通信ライブラリのパフォーマンスは、異なる通信操作、スケール、メッセージサイズによって大きく異なる。
MCR-DLは,すべてのポイント・ツー・ポイントおよび集合操作をサポートする拡張可能なDL通信フレームワークであり,デッドロックのない特定の操作に対して,動的に混在する通信バックエンドを実現する。
MCR-DLには、与えられた入力テンソルの最良の通信バックエンドを動的に選択するためのチューニングスイートも付属している。
我々は、deepspeed-moeとdlrmを候補dlモデルとして選択し、lassen hpcシステム上で256v100 gpuのds-moeスループットを31%向上させた。
さらに,高密度Megatron-DeepSpeedモデルにおいて20%のスループット向上を実現し,Theta-GPU HPCシステムを用いた32A100 GPU上でのDLRMの25%のスループット向上を実現した。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - DiPaCo: Distributed Path Composition [31.686642863608558]
本稿では,機械学習モデルのためのモジュールアーキテクチャとトレーニングアプローチを提案する。
トレーニング中、DiPaCoは共有モジュールのセットを通じてパスで配布する。
推論時には、モデル圧縮を必要とせずに、各入力に対して1つのパスだけを実行する必要がある。
論文 参考訳(メタデータ) (2024-03-15T18:26:51Z) - ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - A Hybrid Tensor-Expert-Data Parallelism Approach to Optimize
Mixture-of-Experts Training [13.346719319555943]
Mixture-of-Experts (MoE)は、ベースモデルにわずかにアクティベートされたエキスパートブロックを追加するニューラルネットワークアーキテクチャである。
現在の分散ディープラーニングフレームワークは、大規模なベースモデルで高品質なMoEモデルをトレーニングする能力に制限がある。
本稿では,データ,テンソル,エキスパート並列性を組み合わせた3次元ハイブリッド並列アルゴリズムDeepSpeed-TEDを提案する。
論文 参考訳(メタデータ) (2023-03-11T05:38:15Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。