論文の概要: MCR-DL: Mix-and-Match Communication Runtime for Deep Learning
- arxiv url: http://arxiv.org/abs/2303.08374v1
- Date: Wed, 15 Mar 2023 05:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 18:15:31.712909
- Title: MCR-DL: Mix-and-Match Communication Runtime for Deep Learning
- Title(参考訳): MCR-DL: ディープラーニングのためのミックス・アンド・マッチ通信ランタイム
- Authors: Quentin Anthony, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He, Aamir
Shafi, Mustafa Abduljabbar, Hari Subramoni, Dhabaleswar Panda
- Abstract要約: 大規模なディープラーニングモデルをトレーニングするには、効率を維持するために高度な並列処理戦略が必要である。
我々は,全てのポイント・ツー・ポイントおよび集合操作をサポートするDL通信フレームワークであるMCR-DLを提案する。
MCR-DLには、与えられた入力テンソルの最良の通信バックエンドを動的に選択するためのチューニングスイートが付属している。
- 参考スコア(独自算出の注目度): 9.320429463027686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the training requirements of many state-of-the-art Deep
Learning (DL) models have scaled beyond the compute and memory capabilities of
a single processor, and necessitated distribution among processors. Training
such massive models necessitates advanced parallelism strategies to maintain
efficiency. However, such distributed DL parallelism strategies require a
varied mixture of collective and point-to-point communication operations across
a broad range of message sizes and scales. Examples of models using advanced
parallelism strategies include Deep Learning Recommendation Models (DLRM) and
Mixture-of-Experts (MoE). Communication libraries' performance varies wildly
across different communication operations, scales, and message sizes. We
propose MCR-DL: an extensible DL communication framework that supports all
point-to-point and collective operations while enabling users to dynamically
mix-and-match communication backends for a given operation without deadlocks.
MCR-DL also comes packaged with a tuning suite for dynamically selecting the
best communication backend for a given input tensor. We select DeepSpeed-MoE
and DLRM as candidate DL models and demonstrate a 31% improvement in DS-MoE
throughput on 256 V100 GPUs on the Lassen HPC system. Further, we achieve a 20%
throughput improvement in a dense Megatron-DeepSpeed model and a 25% throughput
improvement in DLRM on 32 A100 GPUs with the Theta-GPU HPC system.
- Abstract(参考訳): 近年、多くの最先端のディープラーニング(DL)モデルのトレーニング要件は、単一のプロセッサの計算能力やメモリ能力を超えてスケールし、プロセッサ間の分散を必要としている。
このような大規模モデルのトレーニングには、効率を維持するために高度な並列処理戦略が必要となる。
しかし、このような分散DL並列化戦略は、幅広いメッセージサイズとスケールにわたる集合的およびポイント・ツー・ポイントの通信操作の様々な混合を必要とする。
高度な並列化戦略を用いたモデルの例としては、Deep Learning Recommendation Models (DLRM)やMixture-of-Experts (MoE)がある。
通信ライブラリのパフォーマンスは、異なる通信操作、スケール、メッセージサイズによって大きく異なる。
MCR-DLは,すべてのポイント・ツー・ポイントおよび集合操作をサポートする拡張可能なDL通信フレームワークであり,デッドロックのない特定の操作に対して,動的に混在する通信バックエンドを実現する。
MCR-DLには、与えられた入力テンソルの最良の通信バックエンドを動的に選択するためのチューニングスイートも付属している。
我々は、deepspeed-moeとdlrmを候補dlモデルとして選択し、lassen hpcシステム上で256v100 gpuのds-moeスループットを31%向上させた。
さらに,高密度Megatron-DeepSpeedモデルにおいて20%のスループット向上を実現し,Theta-GPU HPCシステムを用いた32A100 GPU上でのDLRMの25%のスループット向上を実現した。
関連論文リスト
- SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - COMET: A Comprehensive Cluster Design Methodology for Distributed Deep
Learning Training [56.54041912681912]
現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計して、パフォーマンスと利用の両方を最大化し、その急激なコストを償却することは、難しい作業です。
並列化戦略とキークラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究するために,COMETを総括的クラスタ設計方法論およびワークフローとして導入する。
論文 参考訳(メタデータ) (2022-11-30T00:32:37Z) - On Optimizing the Communication of Model Parallelism [79.33873698640662]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - SplitBrain: Hybrid Data and Model Parallel Deep Learning [11.63431725146897]
本稿では,ハイブリッドデータとモデル並列性をサポートする高性能分散ディープラーニングフレームワークSplitBrainを提案する。
具体的には、SplitBrainは、メモリ要求層をシャーディングしながら、計算集約的な畳み込み層を同時に配置する、層固有のパーティショニングを提供する。
その結果,データとモデル並列VGGをCIFAR-10上で最大67%のメモリ消費を節約しながら,ほぼ線形スピードアップを実現することができた。
論文 参考訳(メタデータ) (2021-12-31T06:25:38Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。