論文の概要: CATGNN: Cost-Efficient and Scalable Distributed Training for Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2404.02300v1
- Date: Tue, 2 Apr 2024 20:55:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 19:19:01.536034
- Title: CATGNN: Cost-Efficient and Scalable Distributed Training for Graph Neural Networks
- Title(参考訳): CATGNN: グラフニューラルネットワークのための費用効率よくスケーラブルな分散トレーニング
- Authors: Xin Huang, Weipeng Zhuo, Minh Phu Vuong, Shiju Li, Jongryool Kim, Bradley Rees, Chul-Ho Lee,
- Abstract要約: 既存の分散システムは、グラフパーティショニングのためにメモリ内のグラフ全体をロードします。
低コストでスケーラブルな分散GNNトレーニングシステムであるCATGNNを提案する。
また、分散GNNトレーニングのためのSPRingという新しいストリーミング分割アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.321893519281194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph neural networks have been shown successful in recent years. While different GNN architectures and training systems have been developed, GNN training on large-scale real-world graphs still remains challenging. Existing distributed systems load the entire graph in memory for graph partitioning, requiring a huge memory space to process large graphs and thus hindering GNN training on such large graphs using commodity workstations. In this paper, we propose CATGNN, a cost-efficient and scalable distributed GNN training system which focuses on scaling GNN training to billion-scale or larger graphs under limited computational resources. Among other features, it takes a stream of edges as input, instead of loading the entire graph in memory, for partitioning. We also propose a novel streaming partitioning algorithm named SPRING for distributed GNN training. We verify the correctness and effectiveness of CATGNN with SPRING on 16 open datasets. In particular, we demonstrate that CATGNN can handle the largest publicly available dataset with limited memory, which would have been infeasible without increasing the memory space. SPRING also outperforms state-of-the-art partitioning algorithms significantly, with a 50% reduction in replication factor on average.
- Abstract(参考訳): グラフニューラルネットワークは近年成功している。
異なるGNNアーキテクチャとトレーニングシステムが開発されているが、大規模な実世界のグラフでのGNNトレーニングは依然として困難である。
既存の分散システムは、グラフパーティショニングのためにメモリ全体のグラフを読み込むため、巨大なグラフを処理するために巨大なメモリスペースを必要とするため、コモディティワークステーションを使用した巨大なグラフに対するGNNトレーニングを妨げている。
本稿では,コスト効率と拡張性を備えた分散GNNトレーニングシステムであるCATGNNを提案する。
その他の機能の中で、パーティショニングのために、メモリにグラフ全体をロードする代わりに、エッジのストリームを入力として取ります。
また、分散GNNトレーニングのためのSPRingという新しいストリーミング分割アルゴリズムを提案する。
16個のオープンデータセット上で,SPRingによるCATGNNの正当性と有効性を検証する。
特に、CATGNNは、メモリ容量を増大させることなく実現可能であった、限られたメモリを持つ最大の公開データセットを処理できることを実証する。
また、SPRingは最先端のパーティショニングアルゴリズムを著しく上回り、平均して50%のレプリケーション係数が減少する。
関連論文リスト
- Sketch-GNN: Scalable Graph Neural Networks with Sublinear Training Complexity [30.2972965458946]
グラフネットワーク(GNN)はノード分類などのグラフ学習問題に広く適用されている。
GNNの基盤となるグラフをより大きなサイズにスケールアップする場合、完全なグラフをトレーニングするか、あるいは完全なグラフの隣接とノードのメモリへの埋め込みを維持せざるを得ません。
本稿では,学習時間と記憶量がグラフサイズに比例して増加するスケッチベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-21T18:22:11Z) - An Experimental Comparison of Partitioning Strategies for Distributed
Graph Neural Network Training [14.588837832182026]
グラフニューラルネットワーク(GNN)は,グラフ構造化データから学習可能な深層学習の領域として注目されている。
本稿では,分散GNN学習におけるグラフ分割の有効性について検討する。
論文 参考訳(メタデータ) (2023-08-29T19:47:31Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Distributed Graph Neural Network Training: A Survey [51.77035975191926]
グラフニューラルネットワーク(GNN)は、グラフに基づいてトレーニングされたディープラーニングモデルの一種で、さまざまな領域にうまく適用されている。
GNNの有効性にもかかわらず、GNNが大規模グラフに効率的にスケールすることは依然として困難である。
治療法として、分散コンピューティングは大規模GNNをトレーニングするための有望なソリューションとなる。
論文 参考訳(メタデータ) (2022-11-01T01:57:00Z) - Training Graph Neural Networks on Growing Stochastic Graphs [114.75710379125412]
グラフニューラルネットワーク(GNN)は、ネットワーク化されたデータの意味のあるパターンを活用するために、グラフ畳み込みに依存している。
我々は,成長するグラフ列の極限オブジェクトであるグラフオンを利用して,非常に大きなグラフ上のGNNを学習することを提案する。
論文 参考訳(メタデータ) (2022-10-27T16:00:45Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - BGL: GPU-Efficient GNN Training by Optimizing Graph Data I/O and
Preprocessing [0.0]
グラフニューラルネットワーク(GNN)は、ディープニューラルネットワーク(DNN)の成功を非ユークリッドグラフデータに拡張した。
既存のシステムは、数十億のノードとエッジを持つ巨大なグラフをGPUでトレーニングする非効率である。
本稿では,ボトルネックに対処するための分散GNN学習システムであるBGLを提案する。
論文 参考訳(メタデータ) (2021-12-16T00:37:37Z) - Increase and Conquer: Training Graph Neural Networks on Growing Graphs [116.03137405192356]
本稿では,このグラフからBernoulliをサンプリングしたグラフ上でGNNをトレーニングすることで,WNN(Graphon Neural Network)を学習する問題を考察する。
これらの結果から着想を得た大規模グラフ上でGNNを学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-07T15:05:59Z) - A Unified Lottery Ticket Hypothesis for Graph Neural Networks [82.31087406264437]
本稿では,グラフ隣接行列とモデルの重み付けを同時に行う統一GNNスペーシフィケーション(UGS)フレームワークを提案する。
グラフ宝くじ(GLT)をコアサブデータセットとスパースサブネットワークのペアとして定義することにより、人気のある宝くじチケット仮説を初めてGNNsにさらに一般化します。
論文 参考訳(メタデータ) (2021-02-12T21:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。