論文の概要: DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training
- arxiv url: http://arxiv.org/abs/2307.07649v1
- Date: Fri, 14 Jul 2023 22:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 18:45:52.772014
- Title: DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training
- Title(参考訳): DistTGL: 分散メモリベースの時間グラフニューラルネットワークトレーニング
- Authors: Hongkuan Zhou, Da Zheng, Xiang Song, George Karypis, Viktor Prasanna
- Abstract要約: DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。
実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
- 参考スコア(独自算出の注目度): 18.52206409432894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memory-based Temporal Graph Neural Networks are powerful tools in dynamic
graph representation learning and have demonstrated superior performance in
many real-world applications. However, their node memory favors smaller batch
sizes to capture more dependencies in graph events and needs to be maintained
synchronously across all trainers. As a result, existing frameworks suffer from
accuracy loss when scaling to multiple GPUs. Evenworse, the tremendous overhead
to synchronize the node memory make it impractical to be deployed to
distributed GPU clusters. In this work, we propose DistTGL -- an efficient and
scalable solution to train memory-based TGNNs on distributed GPU clusters.
DistTGL has three improvements over existing solutions: an enhanced TGNN model,
a novel training algorithm, and an optimized system. In experiments, DistTGL
achieves near-linear convergence speedup, outperforming state-of-the-art
single-machine method by 14.5% in accuracy and 10.17x in training throughput.
- Abstract(参考訳): メモリベースの時間グラフニューラルネットワークは、動的グラフ表現学習の強力なツールであり、多くの実世界のアプリケーションで優れた性能を示している。
しかし、ノードメモリはグラフイベントの依存関係をより多く捉えるためにより小さなバッチサイズを好んでおり、すべてのトレーナー間で同期的にメンテナンスする必要がある。
その結果、既存のフレームワークは、複数のgpuへのスケーリング時に精度が低下する。
さらに悪いことに、ノードメモリを同期する膨大なオーバーヘッドは、分散GPUクラスタへのデプロイを非現実的にします。
本研究では、分散GPUクラスタ上でメモリベースのTGNNをトレーニングする、効率的でスケーラブルなソリューションであるDistTGLを提案する。
DistTGLには、拡張TGNNモデル、新しいトレーニングアルゴリズム、最適化されたシステムという、既存のソリューションよりも3つの改善がある。
実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
関連論文リスト
- FastGL: A GPU-Efficient Framework for Accelerating Sampling-Based GNN Training at Large Scale [29.272368697268433]
グラフニューラルネットワーク(GNN)は、非ユークリッドグラフデータに対して大きな優位性を示している。
我々は,大規模なGNNのサンプリングベーストレーニングを高速化するGPU効率のフレームワークであるFastGLを提案する。
FastGLは、最先端フレームワークであるPyG、DGL、GNNLabに対して平均11.8x、2.2x、1.5xのスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-09-23T11:45:47Z) - Slicing Input Features to Accelerate Deep Learning: A Case Study with Graph Neural Networks [0.24578723416255746]
本稿では,機能スライスされた大規模グラフ学習手法であるSliceGCNを紹介する。
これは、ミニバッチトレーニングに典型的な精度損失を回避し、GPU間通信を減らすことを目的としている。
6つのノード分類データセットで実験を行い、興味深い分析結果を得た。
論文 参考訳(メタデータ) (2024-08-21T10:18:41Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - Scalable Graph Convolutional Network Training on Distributed-Memory
Systems [5.169989177779801]
グラフ畳み込みネットワーク(GCN)はグラフの深層学習に広く利用されている。
グラフ上の畳み込み操作は不規則なメモリアクセスパターンを誘導するので、GCNトレーニングのためのメモリと通信効率の並列アルゴリズムを設計することはユニークな課題である。
本稿では,大規模プロセッサ数にスケールする並列トレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-09T17:51:13Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - BGL: GPU-Efficient GNN Training by Optimizing Graph Data I/O and
Preprocessing [0.0]
グラフニューラルネットワーク(GNN)は、ディープニューラルネットワーク(DNN)の成功を非ユークリッドグラフデータに拡張した。
既存のシステムは、数十億のノードとエッジを持つ巨大なグラフをGPUでトレーニングする非効率である。
本稿では,ボトルネックに対処するための分散GNN学習システムであるBGLを提案する。
論文 参考訳(メタデータ) (2021-12-16T00:37:37Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - DistDGL: Distributed Graph Neural Network Training for Billion-Scale
Graphs [22.63888380481248]
DistDGLは、マシンのクラスタ上で、ミニバッチ方式でGNNをトレーニングするシステムである。
これは人気のあるGNN開発フレームワークであるDeep Graph Library(DGL)に基づいている。
この結果から,DistDGLはモデル精度を損なうことなく線形高速化を実現することがわかった。
論文 参考訳(メタデータ) (2020-10-11T20:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。