論文の概要: Efficient MPI-based Communication for GPU-Accelerated Dask Applications
- arxiv url: http://arxiv.org/abs/2101.08878v1
- Date: Thu, 21 Jan 2021 22:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 09:01:00.878658
- Title: Efficient MPI-based Communication for GPU-Accelerated Dask Applications
- Title(参考訳): GPU-Accelerated Dask アプリケーションのための MPI ベースの効率的な通信
- Authors: Aamir Shafi, Jahanzeb Maqbool Hashmi, Hari Subramoni and Dhabaleswar
K. Panda
- Abstract要約: 本稿では,Dask の新しい通信バックエンド MPI4Dask の設計と実装について述べる。
MPI4Daskは、Message Passing Interface標準のGPU対応実装であるMVAPICH2-GDRよりもmpi4pyを利用している。
我々のレイテンシとスループットの比較から、MPI4Daskは1バイトメッセージでUCXを6倍、大きなメッセージで4倍性能が高いことが示唆されている。
- 参考スコア(独自算出の注目度): 1.211955119100926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dask is a popular parallel and distributed computing framework, which rivals
Apache Spark to enable task-based scalable processing of big data. The Dask
Distributed library forms the basis of this computing engine and provides
support for adding new communication devices. It currently has two
communication devices: one for TCP and the other for high-speed networks using
UCX-Py -- a Cython wrapper to UCX. This paper presents the design and
implementation of a new communication backend for Dask -- called MPI4Dask --
that is targeted for modern HPC clusters built with GPUs. MPI4Dask exploits
mpi4py over MVAPICH2-GDR, which is a GPU-aware implementation of the Message
Passing Interface (MPI) standard. MPI4Dask provides point-to-point asynchronous
I/O communication coroutines, which are non-blocking concurrent operations
defined using the async/await keywords from the Python's asyncio framework. Our
latency and throughput comparisons suggest that MPI4Dask outperforms UCX by 6x
for 1 Byte message and 4x for large messages (2 MBytes and beyond)
respectively. We also conduct comparative performance evaluation of MPI4Dask
with UCX using two benchmark applications: 1) sum of cuPy array with its
transpose, and 2) cuDF merge. MPI4Dask speeds up the overall execution time of
the two applications by an average of 3.47x and 3.11x respectively on an
in-house cluster built with NVIDIA Tesla V100 GPUs for 1-6 Dask workers. We
also perform scalability analysis of MPI4Dask against UCX for these
applications on TACC's Frontera (GPU) system with upto 32 Dask workers on 32
NVIDIA Quadro RTX 5000 GPUs and 256 CPU cores. MPI4Dask speeds up the execution
time for cuPy and cuDF applications by an average of 1.71x and 2.91x
respectively for 1-32 Dask workers on the Frontera (GPU) system.
- Abstract(参考訳): daskは人気の並列分散コンピューティングフレームワークで、apache sparkに匹敵し、ビッグデータのタスクベースのスケーラブルな処理を可能にする。
Dask Distributedライブラリは、このコンピューティングエンジンの基礎を形成し、新しい通信デバイスの追加をサポートする。
ひとつはTCP用、もうひとつはUCXのCythonラッパーであるUCX-Pyを使用した高速ネットワーク用である。
本稿では,GPUで構築した最新のHPCクラスタを対象とした,ダスクの新しい通信バックエンド MPI4Dask の設計と実装について述べる。
MPI4Daskは、Message Passing Interface (MPI)標準のGPU対応実装であるMVAPICH2-GDRよりもmpi4pyを利用している。
MPI4Daskは、Pythonのasyncioフレームワークからasync/awaitキーワードを使用して定義された非ブロッキング並行操作である、ポイントツーポイントの非同期I/O通信コルーチンを提供する。
我々のレイテンシとスループットの比較から、MPI4Daskは1バイトメッセージでUCXを6倍、大きなメッセージで4倍(MByteとそれ以上)上回っていることが示唆されている。
また,MPI4DaskとUCXの比較評価を,1) cuPy配列の総和と2) cuDFマージの2つのベンチマークアプリケーションを用いて行った。
mpi4daskは、nvidia tesla v100 gpuで構築された社内クラスタで、平均3.47xと3.11xで、2つのアプリケーションの全体的な実行時間を高速化する。
また、最大32人のDaskワーカーが32個のNVIDIA Quadro RTX 5000 GPUと256個のCPUコアを持つTACCのFronterera(GPU)システム上で、UCXに対してMPI4Daskのスケーラビリティ解析を行う。
MPI4Daskは、Frontera(GPU)システム上の1-32Daskワーカーに対して、cuPyおよびcuDFアプリケーションの実行時間を平均1.71xと2.91xで高速化する。
関連論文リスト
- MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。
Fluxは核融合によって最大96%の通信を重複させる可能性がある。
全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-06-11T00:17:39Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - HDCC: A Hyperdimensional Computing compiler for classification on
embedded systems and high-performance computing [58.720142291102135]
この研究は、HDC分類メソッドの高レベルな記述を最適化されたCコードに変換する最初のオープンソースコンパイラである、ネームコンパイラを紹介している。
nameは現代のコンパイラのように設計されており、直感的で記述的な入力言語、中間表現(IR)、再ターゲット可能なバックエンドを備えている。
これらの主張を裏付けるために,HDC文献で最もよく使われているデータセットについて,HDCCを用いて実験を行った。
論文 参考訳(メタデータ) (2023-04-24T19:16:03Z) - HEAT: A Highly Efficient and Affordable Training System for
Collaborative Filtering Based Recommendation on CPUs [11.007606356081435]
協調フィルタリング(CF)は推奨のための最も効果的な手法の1つであることが証明されている。
マルチコアCPUにSimpleXを最適化する作業はなく、パフォーマンスが制限されている。
本稿では,現代CPUのマルチレベルキャッシュとマルチスレッド機能を完全に実現した効率的なCFトレーニングシステム(HEAT)を提案する。
論文 参考訳(メタデータ) (2023-04-14T18:07:26Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。
ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文 参考訳(メタデータ) (2022-02-19T03:49:21Z) - OMB-Py: Python Micro-Benchmarks for Evaluating Performance of MPI
Libraries on HPC Systems [1.066106854070245]
OMB-Pyは並列Pythonアプリケーションのための最初の通信ベンチマークスイートである。
OMB-Pyは様々なポイント・ツー・ポイントと集合的な通信ベンチマークテストから構成される。
逐次実行と比較して,224CPUコア上での最大106倍の高速化を報告した。
論文 参考訳(メタデータ) (2021-10-20T16:59:14Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Efficient Execution of Quantized Deep Learning Models: A Compiler
Approach [6.616902691349208]
多くのアプリケーションがディープラーニングモデルを使用して予測関数を実装している。
TFLite、MXNet、PyTorchといったディープラーニングフレームワークは、開発者がわずかの精度でモデルを定量化できる。
様々なハードウェアプラットフォーム上で量子化されたモデルを実行するのに適していない。
論文 参考訳(メタデータ) (2020-06-18T01:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。