Fugu-MT 論文翻訳(概要): Empowering GNNs with Fine-grained Communication-Computation Pipelining on Multi-GPU Platforms

論文の概要: Empowering GNNs with Fine-grained Communication-Computation Pipelining on Multi-GPU Platforms

arxiv url: http://arxiv.org/abs/2209.06800v1
Date: Wed, 14 Sep 2022 17:32:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-15 14:01:48.891159
Title: Empowering GNNs with Fine-grained Communication-Computation Pipelining on Multi-GPU Platforms
Title（参考訳）: マルチGPUプラットフォーム上での細粒度通信パイプライニングによるGNNの強化
Authors: Yuke Wang, Boyuan Feng, Zheng Wang, Tong Geng, Kevin Barker, Ang Li, and Yufei Ding
Abstract要約: 我々は、GPU中心のソフトウェアパイプラインを介して、マルチGPUプラットフォーム上でGNNを高速化する新しいシステム設計であるMGGを提案する。 MGGは、細粒度通信パイプラインによってGNNワークロードのリモートメモリアクセス遅延を隠蔽する可能性を探っている。ワークロードのインターリービングとワープベースのマッピング、GPUカーネルの効率的な運用パイプライン化、データアクセス性能向上のための特別なメモリ設計と最適化が含まれている。
参考スコア（独自算出の注目度）: 28.25823488936712
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing size of input graphs for graph neural networks (GNNs) highlights the demand for using multi-GPU platforms. However, existing multi-GPU GNN solutions suffer from inferior performance due to imbalanced computation and inefficient communication. To this end, we propose MGG, a novel system design to accelerate GNNs on multi-GPU platforms via a GPU-centric software pipeline. MGG explores the potential of hiding remote memory access latency in GNN workloads through fine-grained computation-communication pipelining. Specifically, MGG introduces a pipeline-aware workload management strategy and a hybrid data layout design to facilitate communication-computation overlapping. MGG implements an optimized pipeline-centric kernel. It includes workload interleaving and warp-based mapping for efficient GPU kernel operation pipelining and specialized memory designs and optimizations for better data access performance. Besides, MGG incorporates lightweight analytical modeling and optimization heuristics to dynamically improve the GNN execution performance for different settings at runtime. Comprehensive experiments demonstrate that MGG outperforms state-of-the-art multi-GPU systems across various GNN settings: on average 3.65X faster than multi-GPU systems with a unified virtual memory design and on average 7.38X faster than the DGCL framework.
Abstract（参考訳）: グラフニューラルネットワーク(GNN)の入力グラフサイズの増加は、マルチGPUプラットフォームの使用需要を浮き彫りにしている。しかし、既存のマルチGPU GNNソリューションは、不均衡な計算と非効率な通信のために性能が劣る。そこで我々は,GPU中心のソフトウェアパイプラインを通じて,マルチGPUプラットフォーム上でGNNを高速化するためのシステム設計であるMGGを提案する。 MGGは、微粒な計算通信パイプラインによるGNNワークロードにおけるリモートメモリアクセスレイテンシの隠蔽の可能性を探っている。特に、mggは、パイプライン対応のワークロード管理戦略とハイブリッドデータレイアウト設計を導入し、通信・計算の重複を容易にする。 MGGはパイプライン中心の最適化カーネルを実装している。効率的なgpuカーネル操作パイプラインのためのワークロードインターリーブとwarpベースのマッピング、データアクセスパフォーマンスを改善するための特別なメモリ設計と最適化が含まれている。さらに、MGGは軽量な解析モデルと最適化ヒューリスティックを導入し、実行時に異なる設定でGNNの実行性能を動的に改善する。総合的な実験では、MGGは様々なGNN設定で最先端のマルチGPUシステムより優れており、仮想メモリを統一したマルチGPUシステムより平均3.65倍、DGCLフレームワークより平均7.38倍高速である。

関連論文リスト

NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Spatio-Spectral Graph Neural Networks [50.277959544420455]
比スペクトルグラフネットワーク(S$2$GNN)を提案する。 S$2$GNNは空間的およびスペクトル的にパラメータ化されたグラフフィルタを組み合わせる。 S$2$GNNsは、MPGNNsよりも厳密な近似理論誤差境界を生じる。
論文参考訳（メタデータ） (2024-05-29T14:28:08Z)
MaxK-GNN: Extremely Fast GPU Kernel Design for Accelerating Graph Neural Networks Training [7.193336207798203]
アルゴリズムとシステム革新を統合した高性能GPUトレーニングシステムMaxK-GNNを提案する。実験により、マックスK-GNNシステムは、アムダールの法則に従って理論的なスピードアップ限界に接近できることが示された。我々はSOTA GNNに匹敵する精度を達成したが、Redditでは3.22/4.24倍のスピードアップ(理論上の限界vs, 5.52/7.27倍)を実現した。
論文参考訳（メタデータ） (2023-12-14T05:00:49Z)
T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文参考訳（メタデータ） (2023-10-05T02:58:29Z)
Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文参考訳（メタデータ） (2023-08-06T21:04:58Z)
DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文参考訳（メタデータ） (2023-07-14T22:52:27Z)
Accelerating Sampling and Aggregation Operations in GNN Frameworks with GPU Initiated Direct Storage Accesses [9.773813896475264]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するための強力なツールとして登場している。大規模グラフ上でのGNNのトレーニングは、効率的なデータアクセスとデータ移動方法が欠如しているため、依然として大きな課題である。大規模グラフに対するGPU指向GNNトレーニングを実現するために,GPU Initiated Direct Storage Access (GIDS) データローダを提案する。
論文参考訳（メタデータ） (2023-06-28T17:22:15Z)
Communication-Efficient Graph Neural Networks with Probabilistic Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文参考訳（メタデータ） (2023-05-04T21:04:01Z)
MG-GCN: Scalable Multi-GPU GCN Training Framework [1.7188280334580197]
グラフ畳み込みネットワーク(GCN)モデルの完全なバッチトレーニングは、大きなグラフのための単一のGPUでは実現できない。 MG-GCNは、メモリバッファの効率的な再使用を含む、複数のハイパフォーマンスコンピューティング最適化を採用している。 MG-GCNは、DGX-1(V100)とDGX-A100の両方のRedditグラフ上で、DGLに関する超線形スピードアップを達成する。
論文参考訳（メタデータ） (2021-10-17T00:41:43Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。 4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文参考訳（メタデータ） (2021-04-14T08:46:35Z)
BlockGNN: Towards Efficient GNN Acceleration Using Block-Circulant Weight Matrices [9.406007544032848]
グラフニューラルネットワーク(GNN)は、非ユークリッドグラフデータを分析するための最先端のアルゴリズムです。リアルタイムにGNNを推論する方法は、リソース制限のあるエッジコンピューティングプラットフォームでは難しい問題となっている。効率的なGNN加速を実現するソフトウェアハードウェアの共同設計手法であるBlockGNNを提案する。
論文参考訳（メタデータ） (2021-04-13T14:09:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。