論文の概要: Efficient MPI-based Communication for GPU-Accelerated Dask Applications
- arxiv url: http://arxiv.org/abs/2101.08878v1
- Date: Thu, 21 Jan 2021 22:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 09:01:00.878658
- Title: Efficient MPI-based Communication for GPU-Accelerated Dask Applications
- Title(参考訳): GPU-Accelerated Dask アプリケーションのための MPI ベースの効率的な通信
- Authors: Aamir Shafi, Jahanzeb Maqbool Hashmi, Hari Subramoni and Dhabaleswar
K. Panda
- Abstract要約: 本稿では,Dask の新しい通信バックエンド MPI4Dask の設計と実装について述べる。
MPI4Daskは、Message Passing Interface標準のGPU対応実装であるMVAPICH2-GDRよりもmpi4pyを利用している。
我々のレイテンシとスループットの比較から、MPI4Daskは1バイトメッセージでUCXを6倍、大きなメッセージで4倍性能が高いことが示唆されている。
- 参考スコア(独自算出の注目度): 1.211955119100926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dask is a popular parallel and distributed computing framework, which rivals
Apache Spark to enable task-based scalable processing of big data. The Dask
Distributed library forms the basis of this computing engine and provides
support for adding new communication devices. It currently has two
communication devices: one for TCP and the other for high-speed networks using
UCX-Py -- a Cython wrapper to UCX. This paper presents the design and
implementation of a new communication backend for Dask -- called MPI4Dask --
that is targeted for modern HPC clusters built with GPUs. MPI4Dask exploits
mpi4py over MVAPICH2-GDR, which is a GPU-aware implementation of the Message
Passing Interface (MPI) standard. MPI4Dask provides point-to-point asynchronous
I/O communication coroutines, which are non-blocking concurrent operations
defined using the async/await keywords from the Python's asyncio framework. Our
latency and throughput comparisons suggest that MPI4Dask outperforms UCX by 6x
for 1 Byte message and 4x for large messages (2 MBytes and beyond)
respectively. We also conduct comparative performance evaluation of MPI4Dask
with UCX using two benchmark applications: 1) sum of cuPy array with its
transpose, and 2) cuDF merge. MPI4Dask speeds up the overall execution time of
the two applications by an average of 3.47x and 3.11x respectively on an
in-house cluster built with NVIDIA Tesla V100 GPUs for 1-6 Dask workers. We
also perform scalability analysis of MPI4Dask against UCX for these
applications on TACC's Frontera (GPU) system with upto 32 Dask workers on 32
NVIDIA Quadro RTX 5000 GPUs and 256 CPU cores. MPI4Dask speeds up the execution
time for cuPy and cuDF applications by an average of 1.71x and 2.91x
respectively for 1-32 Dask workers on the Frontera (GPU) system.
- Abstract(参考訳): daskは人気の並列分散コンピューティングフレームワークで、apache sparkに匹敵し、ビッグデータのタスクベースのスケーラブルな処理を可能にする。
Dask Distributedライブラリは、このコンピューティングエンジンの基礎を形成し、新しい通信デバイスの追加をサポートする。
ひとつはTCP用、もうひとつはUCXのCythonラッパーであるUCX-Pyを使用した高速ネットワーク用である。
本稿では,GPUで構築した最新のHPCクラスタを対象とした,ダスクの新しい通信バックエンド MPI4Dask の設計と実装について述べる。
MPI4Daskは、Message Passing Interface (MPI)標準のGPU対応実装であるMVAPICH2-GDRよりもmpi4pyを利用している。
MPI4Daskは、Pythonのasyncioフレームワークからasync/awaitキーワードを使用して定義された非ブロッキング並行操作である、ポイントツーポイントの非同期I/O通信コルーチンを提供する。
我々のレイテンシとスループットの比較から、MPI4Daskは1バイトメッセージでUCXを6倍、大きなメッセージで4倍(MByteとそれ以上)上回っていることが示唆されている。
また,MPI4DaskとUCXの比較評価を,1) cuPy配列の総和と2) cuDFマージの2つのベンチマークアプリケーションを用いて行った。
mpi4daskは、nvidia tesla v100 gpuで構築された社内クラスタで、平均3.47xと3.11xで、2つのアプリケーションの全体的な実行時間を高速化する。
また、最大32人のDaskワーカーが32個のNVIDIA Quadro RTX 5000 GPUと256個のCPUコアを持つTACCのFronterera(GPU)システム上で、UCXに対してMPI4Daskのスケーラビリティ解析を行う。
MPI4Daskは、Frontera(GPU)システム上の1-32Daskワーカーに対して、cuPyおよびcuDFアプリケーションの実行時間を平均1.71xと2.91xで高速化する。
関連論文リスト
- Enabling Multi-threading in Heterogeneous Quantum-Classical Programming
Models [53.937052213390736]
量子カーネルの並列実行を可能にするために,C++ベースの並列コンストラクトを導入する。
予備的な性能の結果は、カーネル毎に12スレッドのベルカーネルを2回実行し、カーネルを次々に実行する並列性能が向上したことを示している。
論文 参考訳(メタデータ) (2023-01-27T06:48:37Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - OMB-Py: Python Micro-Benchmarks for Evaluating Performance of MPI
Libraries on HPC Systems [1.066106854070245]
OMB-Pyは並列Pythonアプリケーションのための最初の通信ベンチマークスイートである。
OMB-Pyは様々なポイント・ツー・ポイントと集合的な通信ベンチマークテストから構成される。
逐次実行と比較して,224CPUコア上での最大106倍の高速化を報告した。
論文 参考訳(メタデータ) (2021-10-20T16:59:14Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Large Graph Convolutional Network Training with GPU-Oriented Data
Communication Architecture [19.2129567657739]
グラフ畳み込みネットワーク(gcns)は大規模グラフベースのレコメンデーションシステムでますます採用されている。
現在のGCNトレーニングシステムは、フィーチャーテーブルをホストメモリに保持し、スパース機能の収集にCPUに依存している。
しかしこのアプローチは、ホストメモリの帯域幅とCPUに大きなプレッシャーを与えます。
本稿では,GPUスレッドがホストメモリのスパース機能に直接アクセスするGCNトレーニングのための新しいGPU指向データ通信手法を提案する。
論文 参考訳(メタデータ) (2021-03-04T21:00:17Z) - Optimization of XNOR Convolution for Binary Convolutional Neural
Networks on GPU [2.578242050187029]
本稿では,GPU上でのバイナリ畳み込みネットワーク推論の実装を提案する。
実験の結果、GPUを使用することで、カーネルサイズが3ドル3セントの最大42.61ドルまでスピードアップできることがわかった。
論文 参考訳(メタデータ) (2020-07-28T13:01:17Z) - Efficient Execution of Quantized Deep Learning Models: A Compiler
Approach [6.616902691349208]
多くのアプリケーションがディープラーニングモデルを使用して予測関数を実装している。
TFLite、MXNet、PyTorchといったディープラーニングフレームワークは、開発者がわずかの精度でモデルを定量化できる。
様々なハードウェアプラットフォーム上で量子化されたモデルを実行するのに適していない。
論文 参考訳(メタデータ) (2020-06-18T01:38:10Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。