論文の概要: Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining
- arxiv url: http://arxiv.org/abs/2110.08450v1
- Date: Sat, 16 Oct 2021 02:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:08:55.233158
- Title: Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining
- Title(参考訳): 高速サンプリングとパイプラインによるグラフニューラルネットワークの学習と推論の高速化
- Authors: Tim Kaler, Nickolas Stathas, Anne Ouyang, Alexandros-Stavros
Iliopoulos, Tao B. Schardl, Charles E. Leiserson, Jie Chen
- Abstract要約: グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
- 参考スコア(独自算出の注目度): 58.10436813430554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving the training and inference performance of graph neural networks
(GNNs) is faced with a challenge uncommon in general neural networks: creating
mini-batches requires a lot of computation and data movement due to the
exponential growth of multi-hop graph neighborhoods along network layers. Such
a unique challenge gives rise to a diverse set of system design choices. We
argue in favor of performing mini-batch training with neighborhood sampling in
a distributed multi-GPU environment, under which we identify major performance
bottlenecks hitherto under-explored by developers: mini-batch preparation and
transfer. We present a sequence of improvements to mitigate these bottlenecks,
including a performance-engineered neighborhood sampler, a shared-memory
parallelization strategy, and the pipelining of batch transfer with GPU
computation. We also conduct an empirical analysis that supports the use of
sampling for inference, showing that test accuracies are not materially
compromised. Such an observation unifies training and inference, simplifying
model implementation. We report comprehensive experimental results with several
benchmark data sets and GNN architectures, including a demonstration that, for
the ogbn-papers100M data set, our system SALIENT achieves a speedup of 3x over
a standard PyTorch-Geometric implementation with a single GPU and a further 8x
parallel speedup with 16 GPUs. Therein, training a 3-layer GraphSAGE model with
sampling fanout (15, 10, 5) takes 2.0 seconds per epoch and inference with
fanout (20, 20, 20) takes 2.4 seconds, attaining test accuracy 64.58%.
- Abstract(参考訳): グラフニューラルネットワーク(gnns)のトレーニングと推論のパフォーマンス向上は、一般的なニューラルネットワークでは珍しくない課題に直面している。 ミニバッチの作成には、ネットワーク層に沿ったマルチホップグラフ近傍の指数関数的な成長のために、多くの計算とデータ移動が必要です。
このようなユニークな課題は、システム設計の多様な選択をもたらす。
我々は,分散マルチGPU環境における周辺サンプリングによるミニバッチトレーニングの実施を好んで論じる。
本稿では,これらのボトルネックを軽減するための一連の改良点として,パフォーマンスエンジニアリングによる近傍サンプリング,共有メモリ並列化戦略,GPU計算によるバッチ転送のパイプライン化などを挙げる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
このような観察はトレーニングと推論を統一し、モデルの実装を単純化する。
我々は,複数のベンチマークデータセットとGNNアーキテクチャによる総合的な実験結果を報告し,ogbn-papers100Mデータセットに対して,標準的なPyTorch-Geometric実装よりも3倍の高速化を実現し,さらに16GPUで8倍の並列高速化を実現した。
これにより、サンプリングファンアウト(15, 10, 5)で3層グラフSAGEモデルをトレーニングし、エポック毎に2.0秒、ファンアウト(20, 20)で推論すると2.4秒、テスト精度は64.58%となる。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Sampling-based Distributed Training with Message Passing Neural Network [1.1088875073103417]
ドメイン分割に基づくメッセージパッシングニューラルネットワーク(MPNN)のための分散トレーニングと推論手法を提案する。
我々はDS-MPNN(DとSは分散してサンプリングされる)と呼ばれるスケーラブルなグラフニューラルネットワークを提案し、最大$O(105)のノードをスケーリングできる。
論文 参考訳(メタデータ) (2024-02-23T05:33:43Z) - Distributed Matrix-Based Sampling for Graph Neural Network Training [0.0]
本稿では,スパース行列乗算(SpGEMM)としてサンプリングを表現し,複数のミニバッチを同時にサンプリングする行列ベースバルクサンプリング手法を提案する。
入力グラフトポロジが1つのデバイスに収まらない場合、このグラフを分散し、通信回避型SpGEMMアルゴリズムを用いてGNNミニバッチサンプリングをスケールする。
新たなサンプリング方法に加えて,行列に基づくバルクサンプリング手法を用いて,エンドツーエンドのトレーニング結果を提供するパイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-06T06:40:43Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - BGL: GPU-Efficient GNN Training by Optimizing Graph Data I/O and
Preprocessing [0.0]
グラフニューラルネットワーク(GNN)は、ディープニューラルネットワーク(DNN)の成功を非ユークリッドグラフデータに拡張した。
既存のシステムは、数十億のノードとエッジを持つ巨大なグラフをGPUでトレーニングする非効率である。
本稿では,ボトルネックに対処するための分散GNN学習システムであるBGLを提案する。
論文 参考訳(メタデータ) (2021-12-16T00:37:37Z) - Global Neighbor Sampling for Mixed CPU-GPU Training on Giant Graphs [26.074384252289384]
グラフニューラルネットワーク(GNN)は、グラフデータから学習するための強力なツールであり、様々なアプリケーションで広く利用されている。
大規模なグラフ上でのミニバッチトレーニングを実現するためのサンプリングベース手法が数多く提案されているが、これらの手法は真の産業規模のグラフ上では機能していない。
我々は,CPU-GPUの混合学習に特化して,GNNを巨大なグラフ上でトレーニングすることを目的としたグローバル近隣サンプリングを提案する。
論文 参考訳(メタデータ) (2021-06-11T03:30:25Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z) - Scalable Graph Neural Networks via Bidirectional Propagation [89.70835710988395]
グラフニューラルネットワーク(GNN)は、非ユークリッドデータを学習するための新興分野である。
本稿では、特徴ベクトルとトレーニング/テストノードの両方から局所的な双方向伝搬プロセスを利用するスケーラブルなGNNであるGBPを提案する。
実証実験により、GBPは、トレーニング/テスト時間を大幅に減らして最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2020-10-29T08:55:33Z) - Accurate, Efficient and Scalable Training of Graph Neural Networks [9.569918335816963]
グラフニューラルネットワーク(GNN)は、グラフ上にノード埋め込みを生成する強力なディープラーニングモデルである。
効率的でスケーラブルな方法でトレーニングを実行することは依然として困難です。
本稿では,最先端のミニバッチ手法と比較して,トレーニング負荷を桁違いに削減する新しい並列トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-05T22:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。