論文の概要: Plexus: Taming Billion-edge Graphs with 3D Parallel GNN Training
- arxiv url: http://arxiv.org/abs/2505.04083v1
- Date: Wed, 07 May 2025 02:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.95687
- Title: Plexus: Taming Billion-edge Graphs with 3D Parallel GNN Training
- Title(参考訳): Plexus:3D並列GNNトレーニングによる数十億ドルのグラフ作成
- Authors: Aditya K. Ranjan, Siddharth Singh, Cunyang Wei, Abhinav Bhatele,
- Abstract要約: グラフニューラルネットワーク(GNN)は、実世界のグラフの接続性と構造を利用して、ノード間の複雑な特性と関係を学習する。
多くの実世界のグラフはGPUのメモリ容量を超えるサイズであり、その上にGNNを使用するには、スケールするためにミニバッチサンプリングのような技術が必要である。
本稿では、これらの問題に対処し、数十億のエッジグラフにスケールするフルグラフトレーニングのための3次元並列アプローチを提案する。
- 参考スコア(独自算出の注目度): 1.6954729278440728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph neural networks have emerged as a potent class of neural networks capable of leveraging the connectivity and structure of real-world graphs to learn intricate properties and relationships between nodes. Many real-world graphs exceed the memory capacity of a GPU due to their sheer size, and using GNNs on them requires techniques such as mini-batch sampling to scale. However, this can lead to reduced accuracy in some cases, and sampling and data transfer from the CPU to the GPU can also slow down training. On the other hand, distributed full-graph training suffers from high communication overhead and load imbalance due to the irregular structure of graphs. We propose Plexus, a three-dimensional (3D) parallel approach for full-graph training that tackles these issues and scales to billion-edge graphs. Additionally, we introduce optimizations such as a permutation scheme for load balancing, and a performance model to predict the optimal 3D configuration. We evaluate Plexus on several graph datasets and show scaling results for up to 2048 GPUs on Perlmutter, which is 33% of the machine, and 2048 GCDs on Frontier. Plexus achieves unprecedented speedups of 2.3x-12.5x over existing methods and a reduction in the time to solution by 5.2-8.7x on Perlmutter and 7-54.2x on Frontier.
- Abstract(参考訳): グラフニューラルネットワークは、実世界のグラフの接続性と構造を活用して、ノード間の複雑な特性と関係を学習できる強力なニューラルネットワークのクラスとして登場した。
多くの実世界のグラフはGPUのメモリ容量を超えるサイズであり、その上にGNNを使用するには、スケールするためにミニバッチサンプリングのような技術が必要である。
しかし、これによっていくつかのケースでは精度が低下し、CPUからGPUへのサンプリングとデータ転送も遅くなる可能性がある。
一方、分散フルグラフトレーニングは、グラフの不規則な構造のため、高い通信オーバーヘッドと負荷不均衡に悩まされる。
これらの問題に対処し、数十億のエッジグラフにスケールするフルグラフトレーニングのための3次元(3D)並列アプローチであるPlexusを提案する。
さらに、負荷分散のための置換スキームや、最適3次元構成を予測するための性能モデルなどの最適化も導入する。
いくつかのグラフデータセット上でPlexusを評価し、マシンの33%であるPerlmutterで最大2048GPU、Frontierで2048GCDのスケーリング結果を示す。
Plexusは既存の手法よりも2.3x-12.5xで前例のないスピードアップを達成し、Perlmutterでは5.2-8.7x、Frontierでは7-54.2xに短縮した。
関連論文リスト
- FastGL: A GPU-Efficient Framework for Accelerating Sampling-Based GNN Training at Large Scale [29.272368697268433]
グラフニューラルネットワーク(GNN)は、非ユークリッドグラフデータに対して大きな優位性を示している。
我々は,大規模なGNNのサンプリングベーストレーニングを高速化するGPU効率のフレームワークであるFastGLを提案する。
FastGLは、最先端フレームワークであるPyG、DGL、GNNLabに対して平均11.8x、2.2x、1.5xのスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-09-23T11:45:47Z) - Graph Transformers for Large Graphs [57.19338459218758]
この研究は、モデルの特徴と重要な設計制約を識別することに焦点を当てた、単一の大規模グラフでの表現学習を前進させる。
この研究の重要な革新は、局所的な注意機構と組み合わされた高速な近傍サンプリング技術の作成である。
ogbn-products と snap-patents の3倍の高速化と16.8%の性能向上を報告し、ogbn-100M で LargeGT を5.9% の性能改善で拡張した。
論文 参考訳(メタデータ) (2023-12-18T11:19:23Z) - GNNPipe: Scaling Deep GNN Training with Pipelined Model Parallelism [10.723541176359452]
分散グラフニューラルネットワーク(GNN)トレーニングでは,コミュニケーションが重要なボトルネックとなっている。
GNNPipeは、分散フルグラフの深層GNNトレーニングをスケールする新しいアプローチである。
論文 参考訳(メタデータ) (2023-08-19T18:44:14Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。
実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文 参考訳(メタデータ) (2023-07-14T22:52:27Z) - DistGNN-MB: Distributed Large-Scale Graph Neural Network Training on x86
via Minibatch Sampling [3.518762870118332]
DistGNN-MBは、広く使われているDistDGLより5.2倍速い。
このスケールでは、DistGNN-MB は GraphSAGE と GAT 10x と 17.2x をそれぞれ高速化し、計算ノードは 2 から 32 にスケールした。
論文 参考訳(メタデータ) (2022-11-11T18:07:33Z) - Nimble GNN Embedding with Tensor-Train Decomposition [10.726368002799765]
本稿では、テンソルトレイン(TT)分解によりグラフニューラルネットワーク(GNN)の埋め込みテーブルをよりコンパクトに表現する新しい手法について述べる。
場合によっては、入力に明示的なノード機能がないモデルでも、ノード機能を使用するモデルの精度にマッチすることもある。
論文 参考訳(メタデータ) (2022-06-21T17:57:35Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Scaling Graph Neural Networks with Approximate PageRank [64.92311737049054]
GNNにおける情報拡散の効率的な近似を利用したPPRGoモデルを提案する。
高速であることに加えて、PPRGoは本質的にスケーラブルであり、業界設定で見られるような大規模なデータセットに対して、自明に並列化することができる。
このグラフのすべてのノードに対するPPRGoのトレーニングとラベルの予測には1台のマシンで2分未満で、同じグラフ上の他のベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2020-07-03T09:30:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。