論文の概要: PyTorch-Direct: Enabling GPU Centric Data Access for Very Large Graph
Neural Network Training with Irregular Accesses
- arxiv url: http://arxiv.org/abs/2101.07956v1
- Date: Wed, 20 Jan 2021 04:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:17:44.496465
- Title: PyTorch-Direct: Enabling GPU Centric Data Access for Very Large Graph
Neural Network Training with Irregular Accesses
- Title(参考訳): PyTorch-Direct:不規則アクセスを用いた大規模ニューラルネットワークトレーニングのためのGPU中心データアクセスの実現
- Authors: Seung Won Min, Kun Wu, Sitao Huang, Mert Hidayeto\u{g}lu, Jinjun
Xiong, Eiman Ebrahimi, Deming Chen, Wen-mei Hwu
- Abstract要約: グラフニューラルネットワーク(GNN)トレーニングのためのGPU中心のデータアクセスパラダイムを可能にするPyTorch-Directを紹介します。
マイクロベンチマークとエンドツーエンドのGNNトレーニングの結果から,PyTorch-Directはデータ転送時間を平均47.1%削減し,GNNトレーニングを最大1.6倍高速化した。
- 参考スコア(独自算出の注目度): 19.2129567657739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing adoption of graph neural networks (GNNs) in the machine
learning community, GPUs have become an essential tool to accelerate GNN
training. However, training GNNs on very large graphs that do not fit in GPU
memory is still a challenging task. Unlike conventional neural networks,
mini-batching input samples in GNNs requires complicated tasks such as
traversing neighboring nodes and gathering their feature values. While this
process accounts for a significant portion of the training time, we find
existing GNN implementations using popular deep neural network (DNN) libraries
such as PyTorch are limited to a CPU-centric approach for the entire data
preparation step. This "all-in-CPU" approach has negative impact on the overall
GNN training performance as it over-utilizes CPU resources and hinders GPU
acceleration of GNN training. To overcome such limitations, we introduce
PyTorch-Direct, which enables a GPU-centric data accessing paradigm for GNN
training. In PyTorch-Direct, GPUs are capable of efficiently accessing
complicated data structures in host memory directly without CPU intervention.
Our microbenchmark and end-to-end GNN training results show that PyTorch-Direct
reduces data transfer time by 47.1% on average and speeds up GNN training by up
to 1.6x. Furthermore, by reducing CPU utilization, PyTorch-Direct also saves
system power by 12.4% to 17.5% during training. To minimize programmer effort,
we introduce a new "unified tensor" type along with necessary changes to the
PyTorch memory allocator, dispatch logic, and placement rules. As a result,
users need to change at most two lines of their PyTorch GNN training code for
each tensor object to take advantage of PyTorch-Direct.
- Abstract(参考訳): 機械学習コミュニティにおけるグラフニューラルネットワーク(GNN)の採用の増加に伴い、GPUはGNNトレーニングを加速するための重要なツールとなっている。
しかし、GPUメモリに適合しない非常に大きなグラフでGNNをトレーニングすることは依然として難しい課題である。
従来のニューラルネットワークとは異なり、GNNのミニバッチ入力サンプルは、隣接するノードをトラバースしたり、特徴値を集めるといった複雑なタスクを必要とする。
このプロセスはトレーニング時間の大部分を占めるが、PyTorchのような一般的なディープニューラルネットワーク(DNN)ライブラリを使用した既存のGNN実装は、データ準備全体のCPU中心のアプローチに限定されている。
この"オールインCPU"アプローチは、CPUリソースを過剰に活用し、GNNトレーニングのGPUアクセラレーションを妨げるため、全体的なGNNトレーニングパフォーマンスに悪影響を及ぼす。
このような制限を克服するために、GNNトレーニングのためのGPU中心のデータアクセスパラダイムを可能にするPyTorch-Directを導入する。
PyTorch-Directでは、GPUはCPUの介入なしにホストメモリの複雑なデータ構造に直接効率的にアクセスすることができる。
マイクロベンチマークとエンドツーエンドのGNNトレーニングの結果から,PyTorch-Directはデータ転送時間を平均47.1%削減し,GNNトレーニングを最大1.6倍高速化した。
さらに、CPU使用率を下げることで、PyTorch-Directはトレーニング中にシステム電力を12.4%から17.5%削減する。
プログラマの労力を最小限に抑えるため、PyTorchメモリアロケータ、ディスパッチロジック、配置ルールの変更とともに、新しい"統一テンソル"型を導入する。
その結果、ユーザーは各テンソルオブジェクトに対してPyTorch-Directを利用するために、PyTorch GNNトレーニングコードの少なくとも2行を変更する必要がある。
関連論文リスト
- SpanGNN: Towards Memory-Efficient Graph Neural Networks via Spanning Subgraph Training [14.63975787929143]
グラフニューラルネットワーク(GNN)は、グラフデータを学習する能力に優れています。
フルグラフGNNトレーニングは一般的に精度が高いが、ピークメモリ使用量が多い。
本研究では,SpanGNNと呼ばれるスパンニングサブグラフを用いたメモリ効率のよいGNNトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T13:46:23Z) - iSpLib: A Library for Accelerating Graph Neural Networks using Auto-tuned Sparse Operations [1.3030767447016454]
iSpLibは、自動調整されたスパース操作を備えたPyTorchベースのC++ライブラリである。
iSpLibは、CPU上のPyTorch 2.1.0とPyTorch Geometric 2.4.0と同等のPyTorch 2.1.0と比較して、最大27倍のトレーニングスピードアップが得られることを示した。
論文 参考訳(メタデータ) (2024-03-21T21:56:44Z) - Accelerating Sampling and Aggregation Operations in GNN Frameworks with
GPU Initiated Direct Storage Accesses [9.773813896475264]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するための強力なツールとして登場している。
大規模グラフ上でのGNNのトレーニングは、効率的なデータアクセスとデータ移動方法が欠如しているため、依然として大きな課題である。
大規模グラフに対するGPU指向GNNトレーニングを実現するために,GPU Initiated Direct Storage Access (GIDS) データローダを提案する。
論文 参考訳(メタデータ) (2023-06-28T17:22:15Z) - You Can Have Better Graph Neural Networks by Not Training Weights at
All: Finding Untrained GNNs Tickets [105.24703398193843]
グラフニューラルネットワーク(GNN)の未訓練作業はまだ謎のままだ。
得られた未学習作品によって,GNNの過度なスムース化問題を大幅に軽減できることを示す。
また,そのような未学習作業が,入力摂動の分布外検出と堅牢性に優れていることも観察した。
論文 参考訳(メタデータ) (2022-11-28T14:17:36Z) - Distributed Graph Neural Network Training: A Survey [51.77035975191926]
グラフニューラルネットワーク(GNN)は、グラフに基づいてトレーニングされたディープラーニングモデルの一種で、さまざまな領域にうまく適用されている。
GNNの有効性にもかかわらず、GNNが大規模グラフに効率的にスケールすることは依然として困難である。
治療法として、分散コンピューティングは大規模GNNをトレーニングするための有望なソリューションとなる。
論文 参考訳(メタデータ) (2022-11-01T01:57:00Z) - TC-GNN: Bridging Sparse GNN Computation and Dense Tensor Cores on GPUs [21.63854538768414]
我々はGPUコアユニット(TCU)をベースとした最初のGNNフレームワークであるTC-GNNを提案する。
中心となるアイデアは、"スパース"GNNを高性能な"デンス"TCUと整合させることである。
厳密な実験は、最先端のDGLフレームワーク上で平均1.70のスピードアップを示している。
論文 参考訳(メタデータ) (2021-12-03T18:06:23Z) - Training Graph Neural Networks with 1000 Layers [133.84813995275988]
我々は、GNNのメモリとパラメータ効率を向上させるために、可逆接続、グループ畳み込み、重み付け、平衡モデルについて検討する。
我々の知る限りでは、RevGNN-Deepは文学で最も深いGNNである。
論文 参考訳(メタデータ) (2021-06-14T15:03:00Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - BlockGNN: Towards Efficient GNN Acceleration Using Block-Circulant
Weight Matrices [9.406007544032848]
グラフニューラルネットワーク(GNN)は、非ユークリッドグラフデータを分析するための最先端のアルゴリズムです。
リアルタイムにGNNを推論する方法は、リソース制限のあるエッジコンピューティングプラットフォームでは難しい問題となっている。
効率的なGNN加速を実現するソフトウェアハードウェアの共同設計手法であるBlockGNNを提案する。
論文 参考訳(メタデータ) (2021-04-13T14:09:22Z) - A Unified Lottery Ticket Hypothesis for Graph Neural Networks [82.31087406264437]
本稿では,グラフ隣接行列とモデルの重み付けを同時に行う統一GNNスペーシフィケーション(UGS)フレームワークを提案する。
グラフ宝くじ(GLT)をコアサブデータセットとスパースサブネットワークのペアとして定義することにより、人気のある宝くじチケット仮説を初めてGNNsにさらに一般化します。
論文 参考訳(メタデータ) (2021-02-12T21:52:43Z) - Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。
提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文 参考訳(メタデータ) (2020-06-26T21:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。