論文の概要: Large Graph Convolutional Network Training with GPU-Oriented Data
Communication Architecture
- arxiv url: http://arxiv.org/abs/2103.03330v1
- Date: Thu, 4 Mar 2021 21:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 14:48:19.226218
- Title: Large Graph Convolutional Network Training with GPU-Oriented Data
Communication Architecture
- Title(参考訳): GPU指向データ通信アーキテクチャによる大規模グラフ畳み込みネットワークトレーニング
- Authors: Seung Won Min, Kun Wu, Sitao Huang, Mert Hidayeto\u{g}lu, Jinjun
Xiong, Eiman Ebrahimi, Deming Chen, Wen-mei Hwu
- Abstract要約: グラフ畳み込みネットワーク(gcns)は大規模グラフベースのレコメンデーションシステムでますます採用されている。
現在のGCNトレーニングシステムは、フィーチャーテーブルをホストメモリに保持し、スパース機能の収集にCPUに依存している。
しかしこのアプローチは、ホストメモリの帯域幅とCPUに大きなプレッシャーを与えます。
本稿では,GPUスレッドがホストメモリのスパース機能に直接アクセスするGCNトレーニングのための新しいGPU指向データ通信手法を提案する。
- 参考スコア(独自算出の注目度): 19.2129567657739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph Convolutional Networks (GCNs) are increasingly adopted in large-scale
graph-based recommender systems. Training GCN requires the minibatch generator
traversing graphs and sampling the sparsely located neighboring nodes to obtain
their features. Since real-world graphs often exceed the capacity of GPU
memory, current GCN training systems keep the feature table in host memory and
rely on the CPU to collect sparse features before sending them to the GPUs.
This approach, however, puts tremendous pressure on host memory bandwidth and
the CPU. This is because the CPU needs to (1) read sparse features from memory,
(2) write features into memory as a dense format, and (3) transfer the features
from memory to the GPUs. In this work, we propose a novel GPU-oriented data
communication approach for GCN training, where GPU threads directly access
sparse features in host memory through zero-copy accesses without much CPU
help. By removing the CPU gathering stage, our method significantly reduces the
consumption of the host resources and data access latency. We further present
two important techniques to achieve high host memory access efficiency by the
GPU: (1) automatic data access address alignment to maximize PCIe packet
efficiency, and (2) asynchronous zero-copy access and kernel execution to fully
overlap data transfer with training. We incorporate our method into PyTorch and
evaluate its effectiveness using several graphs with sizes up to 111 million
nodes and 1.6 billion edges. In a multi-GPU training setup, our method is
65-92% faster than the conventional data transfer method, and can even match
the performance of all-in-GPU-memory training for some graphs that fit in GPU
memory.
- Abstract(参考訳): グラフ畳み込みネットワーク(gcns)は大規模グラフベースのレコメンデーションシステムでますます採用されている。
GCNのトレーニングには、ミニバッチジェネレーターがグラフを横断し、隣接するノードをサンプリングして特徴を得る必要があります。
現実のグラフはGPUメモリの容量を超えることが多いため、現在のGCNトレーニングシステムは、フィーチャーテーブルをホストメモリに保持し、GPUに送信する前にスパース機能を集めるためにCPUに依存している。
しかしこのアプローチは、ホストメモリの帯域幅とCPUに大きなプレッシャーを与えます。
これは、CPUが(1)メモリからスパース機能を読み込み、(2)高密度フォーマットとしてメモリに機能を書き込み、(3)メモリからGPUに機能を転送する必要があるためである。
本研究では、GPUスレッドがCPUの助けなしにゼロコピーアクセスを介してホストメモリのスパースな機能に直接アクセスする、GCNトレーニングのための新しいGPU指向データ通信アプローチを提案する。
CPU収集段階を除去することにより、ホストリソースの消費とデータアクセス遅延を大幅に低減する。
さらに,gpuによる高ホストメモリアクセス効率を実現するために,(1)pcieパケット効率を最大化する自動データアクセスアドレスアライメント,(2)非同期ゼロコピーアクセスとカーネル実行の2つの重要な技術を提案する。
提案手法をPyTorchに組み込んで,最大1100万ノードと160億エッジのグラフを用いて,その有効性を評価する。
マルチGPUトレーニングのセットアップでは、従来のデータ転送方法よりも65〜92%高速で、GPUメモリに収まるグラフのオールインGPUメモリトレーニングのパフォーマンスも一致させることができます。
関連論文リスト
- Accelerating Sampling and Aggregation Operations in GNN Frameworks with
GPU Initiated Direct Storage Accesses [9.773813896475264]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するための強力なツールとして登場している。
大規模グラフ上でのGNNのトレーニングは、効率的なデータアクセスとデータ移動方法が欠如しているため、依然として大きな課題である。
大規模グラフに対するGPU指向GNNトレーニングを実現するために,GPU Initiated Direct Storage Access (GIDS) データローダを提案する。
論文 参考訳(メタデータ) (2023-06-28T17:22:15Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - Heterogeneous Acceleration Pipeline for Recommendation System Training [1.8457649813040096]
レコメンデーションモデルは、ディープラーニングネットワークと大規模な埋め込みテーブルに依存している。
これらのモデルは一般的に、ハイブリッドGPUまたはGPUのみの設定を使用してトレーニングされる。
本稿ではヘテロジニアスなCPUアクセラレーションパイプラインであるHotlineを紹介する。
論文 参考訳(メタデータ) (2022-04-11T23:10:41Z) - Scaling R-GCN Training with Graph Summarization [71.06855946732296]
リレーショナルグラフ畳み込みネットワーク(R-GCN)のトレーニングは、グラフのサイズに合わない。
本研究では,グラフの要約手法を用いてグラフを圧縮する実験を行った。
AIFB, MUTAG, AMデータセットについて妥当な結果を得た。
論文 参考訳(メタデータ) (2022-03-05T00:28:43Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - MG-GCN: Scalable Multi-GPU GCN Training Framework [1.7188280334580197]
グラフ畳み込みネットワーク(GCN)モデルの完全なバッチトレーニングは、大きなグラフのための単一のGPUでは実現できない。
MG-GCNは、メモリバッファの効率的な再使用を含む、複数のハイパフォーマンスコンピューティング最適化を採用している。
MG-GCNは、DGX-1(V100)とDGX-A100の両方のRedditグラフ上で、DGLに関する超線形スピードアップを達成する。
論文 参考訳(メタデータ) (2021-10-17T00:41:43Z) - Efficient Scaling of Dynamic Graph Neural Networks [7.313571385612325]
これは、動的グラフニューラルネットワークに関する最初のスケーリング研究である。
我々はGPUメモリ使用量を削減するメカニズムを考案した。
我々は、転送時間を著しく短縮するグラフ差分に基づく戦略を設計する。
論文 参考訳(メタデータ) (2021-09-16T11:51:20Z) - Global Neighbor Sampling for Mixed CPU-GPU Training on Giant Graphs [26.074384252289384]
グラフニューラルネットワーク(GNN)は、グラフデータから学習するための強力なツールであり、様々なアプリケーションで広く利用されている。
大規模なグラフ上でのミニバッチトレーニングを実現するためのサンプリングベース手法が数多く提案されているが、これらの手法は真の産業規模のグラフ上では機能していない。
我々は,CPU-GPUの混合学習に特化して,GNNを巨大なグラフ上でトレーニングすることを目的としたグローバル近隣サンプリングを提案する。
論文 参考訳(メタデータ) (2021-06-11T03:30:25Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。