論文の概要: Quiver: Supporting GPUs for Low-Latency, High-Throughput GNN Serving
with Workload Awareness
- arxiv url: http://arxiv.org/abs/2305.10863v1
- Date: Thu, 18 May 2023 10:34:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 15:44:21.387775
- Title: Quiver: Supporting GPUs for Low-Latency, High-Throughput GNN Serving
with Workload Awareness
- Title(参考訳): quiver: ワークロードを意識した低レイテンシ、高スループットgnn用gpuのサポート
- Authors: Zeyuan Tan, Xiulong Yuan, Congjie He, Man-Kit Sit, Guo Li, Xiaoze Liu,
Baole Ai, Kai Zeng, Peter Pietzuch, Luo Mai
- Abstract要約: Quiverは、低レイテンシと高スループットを備えた分散GPUベースのGNNサービスシステムである。
最新のGNN手法と比較して,Quiverは8倍のスループットで最大35倍のレイテンシを実現している。
- 参考スコア(独自算出の注目度): 4.8412870364335925
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Systems for serving inference requests on graph neural networks (GNN) must
combine low latency with high throughout, but they face irregular computation
due to skew in the number of sampled graph nodes and aggregated GNN features.
This makes it challenging to exploit GPUs effectively: using GPUs to sample
only a few graph nodes yields lower performance than CPU-based sampling; and
aggregating many features exhibits high data movement costs between GPUs and
CPUs. Therefore, current GNN serving systems use CPUs for graph sampling and
feature aggregation, limiting throughput.
We describe Quiver, a distributed GPU-based GNN serving system with
low-latency and high-throughput. Quiver's key idea is to exploit workload
metrics for predicting the irregular computation of GNN requests, and governing
the use of GPUs for graph sampling and feature aggregation: (1) for graph
sampling, Quiver calculates the probabilistic sampled graph size, a metric that
predicts the degree of parallelism in graph sampling. Quiver uses this metric
to assign sampling tasks to GPUs only when the performance gains surpass
CPU-based sampling; and (2) for feature aggregation, Quiver relies on the
feature access probability to decide which features to partition and replicate
across a distributed GPU NUMA topology. We show that Quiver achieves up to 35
times lower latency with an 8 times higher throughput compared to
state-of-the-art GNN approaches (DGL and PyG).
- Abstract(参考訳): グラフニューラルネットワーク(GNN)に推論要求を提供するシステムでは,低レイテンシと高レイテンシを全体で組み合わせなければならないが,サンプルノードの数や集約されたGNN機能の増加による不規則な計算に直面する。
gpuを使用して少数のグラフノードのみをサンプリングすると、cpuベースのサンプリングよりもパフォーマンスが低下し、多くの機能を集約することで、gpuとcpu間のデータ移動コストが高くなる。
そのため、現在のGNNサービスシステムは、グラフサンプリングと機能集約にCPUを使用し、スループットを制限している。
低レイテンシかつ高スループットの分散GPUベースGNNサービスシステムであるQuiverについて説明する。
Quiverのキーとなるアイデアは、GNN要求の不規則な計算を予測し、グラフサンプリングと特徴集約にGPUを使うことを管理するためにワークロードメトリクスを利用することである。
Quiverはこのメトリックを使用してサンプリングタスクをGPUに割り当て、パフォーマンスがCPUベースのサンプリングを上回った場合にのみ、(2)機能アグリゲーションのために、Quiverは機能アクセス確率に依存して、分散GPU NUMAトポロジに分割して複製する機能を決定する。
最新のGNNアプローチ(DGLとPyG)と比較して,Quiverは8倍のスループットで最大35倍のレイテンシを実現している。
関連論文リスト
- Distributed Matrix-Based Sampling for Graph Neural Network Training [0.0]
本稿では,スパース行列乗算(SpGEMM)としてサンプリングを表現し,複数のミニバッチを同時にサンプリングする行列ベースバルクサンプリング手法を提案する。
入力グラフトポロジが1つのデバイスに収まらない場合、このグラフを分散し、通信回避型SpGEMMアルゴリズムを用いてGNNミニバッチサンプリングをスケールする。
新たなサンプリング方法に加えて,行列に基づくバルクサンプリング手法を用いて,エンドツーエンドのトレーニング結果を提供するパイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-06T06:40:43Z) - BatchGNN: Efficient CPU-Based Distributed GNN Training on Very Large
Graphs [2.984386665258243]
BatchGNNは、テラバイト規模のグラフ上でGNNを効率的にトレーニングするテクニックを披露する分散CPUシステムである。
BatchGNNは、OGBNグラフでトレーニングされた3つのGNNモデルに対して、DistDGLよりも平均3倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-06-23T23:25:34Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - BGL: GPU-Efficient GNN Training by Optimizing Graph Data I/O and
Preprocessing [0.0]
グラフニューラルネットワーク(GNN)は、ディープニューラルネットワーク(DNN)の成功を非ユークリッドグラフデータに拡張した。
既存のシステムは、数十億のノードとエッジを持つ巨大なグラフをGPUでトレーニングする非効率である。
本稿では,ボトルネックに対処するための分散GNN学習システムであるBGLを提案する。
論文 参考訳(メタデータ) (2021-12-16T00:37:37Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Global Neighbor Sampling for Mixed CPU-GPU Training on Giant Graphs [26.074384252289384]
グラフニューラルネットワーク(GNN)は、グラフデータから学習するための強力なツールであり、様々なアプリケーションで広く利用されている。
大規模なグラフ上でのミニバッチトレーニングを実現するためのサンプリングベース手法が数多く提案されているが、これらの手法は真の産業規模のグラフ上では機能していない。
我々は,CPU-GPUの混合学習に特化して,GNNを巨大なグラフ上でトレーニングすることを目的としたグローバル近隣サンプリングを提案する。
論文 参考訳(メタデータ) (2021-06-11T03:30:25Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Accelerating Graph Sampling for Graph Machine Learning using GPUs [2.9383911860380127]
NextDoorはGPUリソース上でグラフサンプリングを実行するように設計されたシステムである。
NextDoorは、トランジット並列性(transit-parallelism)と呼ばれるグラフサンプリングに新しいアプローチを採用しています。
我々はいくつかのグラフサンプリングアプリケーションを実装し、NextDoorが既存のシステムよりも桁違いに高速に動作していることを示す。
論文 参考訳(メタデータ) (2020-09-14T19:03:33Z) - Scaling Graph Neural Networks with Approximate PageRank [64.92311737049054]
GNNにおける情報拡散の効率的な近似を利用したPPRGoモデルを提案する。
高速であることに加えて、PPRGoは本質的にスケーラブルであり、業界設定で見られるような大規模なデータセットに対して、自明に並列化することができる。
このグラフのすべてのノードに対するPPRGoのトレーニングとラベルの予測には1台のマシンで2分未満で、同じグラフ上の他のベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2020-07-03T09:30:07Z) - Fast Graph Attention Networks Using Effective Resistance Based Graph
Sparsification [70.50751397870972]
FastGATは、スペクトルスペーシフィケーションを用いて、注目に基づくGNNを軽量にし、入力グラフの最適プルーニングを生成する手法である。
我々は,ノード分類タスクのための大規模実世界のグラフデータセット上でFastGATを実験的に評価した。
論文 参考訳(メタデータ) (2020-06-15T22:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。