論文の概要: GraNNDis: Efficient Unified Distributed Training Framework for Deep GNNs
on Large Clusters
- arxiv url: http://arxiv.org/abs/2311.06837v1
- Date: Sun, 12 Nov 2023 13:30:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 16:42:19.402465
- Title: GraNNDis: Efficient Unified Distributed Training Framework for Deep GNNs
on Large Clusters
- Title(参考訳): GraNNDis: 大規模クラスタ上でのディープGNNのための効率的な統一分散トレーニングフレームワーク
- Authors: Jaeyong Song, Hongsun Jang, Jaewon Jung, Youngsok Kim, Jinho Lee
- Abstract要約: グラフニューラルネットワーク(GNN)は、ディープラーニングにおいて最も急速に成長している分野の1つである。
GraNNDisは、大きなグラフとディープレイヤ上でGNNをトレーニングするための、効率的な分散GNNトレーニングフレームワークである。
GraNNDisは最先端の分散GNNトレーニングフレームワークよりも優れたスピードアップを提供する。
- 参考スコア(独自算出の注目度): 8.137466511979586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph neural networks (GNNs) are one of the most rapidly growing fields
within deep learning. According to the growth in the dataset and the model size
used for GNNs, an important problem is that it becomes nearly impossible to
keep the whole network on GPU memory. Among numerous attempts, distributed
training is one popular approach to address the problem. However, due to the
nature of GNNs, existing distributed approaches suffer from poor scalability,
mainly due to the slow external server communications.
In this paper, we propose GraNNDis, an efficient distributed GNN training
framework for training GNNs on large graphs and deep layers. GraNNDis
introduces three new techniques. First, shared preloading provides a training
structure for a cluster of multi-GPU servers. We suggest server-wise preloading
of essential vertex dependencies to reduce the low-bandwidth external server
communications. Second, we present expansion-aware sampling. Because shared
preloading alone has limitations because of the neighbor explosion,
expansion-aware sampling reduces vertex dependencies that span across server
boundaries. Third, we propose cooperative batching to create a unified
framework for full-graph and minibatch training. It significantly reduces
redundant memory usage in mini-batch training. From this, GraNNDis enables a
reasonable trade-off between full-graph and mini-batch training through
unification especially when the entire graph does not fit into the GPU memory.
With experiments conducted on a multi-server/multi-GPU cluster, we show that
GraNNDis provides superior speedup over the state-of-the-art distributed GNN
training frameworks.
- Abstract(参考訳): グラフニューラルネットワーク(GNN)は、ディープラーニングにおいて最も急速に成長している分野の1つである。
データセットの成長とGNNで使用されるモデルサイズによると、重要な問題は、ネットワーク全体をGPUメモリ上に保持することがほぼ不可能になることだ。
多くの試みの中で、分散トレーニングはこの問題に対処するための一般的なアプローチである。
しかし、GNNの性質のため、既存の分散アプローチはスケーラビリティが悪く、主に外部サーバの通信が遅いためである。
本稿では,大規模グラフおよび深層層上でGNNを学習するための分散GNNトレーニングフレームワークであるGraNNDisを提案する。
GraNNDisは3つの新しいテクニックを導入した。
まず、共有プリローディングはマルチgpuサーバのクラスタのトレーニング構造を提供する。
低帯域の外部サーバ通信を減らすために,本質的な頂点依存性のサーバワイドプリロードを提案する。
第2に,拡張対応サンプリングを提案する。
共有プリロードだけでは、隣の爆発のために制限があるため、拡張対応サンプリングは、サーバ境界を越えた頂点依存性を減らす。
第3に、フルグラフおよびミニバッチトレーニングのための統合フレームワークを作成するための協調的バッチ化を提案する。
ミニバッチトレーニングにおける冗長メモリ使用量を大幅に削減する。
これによりGraNNDisは、特にグラフ全体がGPUメモリに収まらない場合の統一を通じて、フルグラフとミニバッチトレーニングの間の合理的なトレードオフを可能にする。
マルチサーバ/マルチGPUクラスタ上での実験により、GraNNDisは最先端の分散GNNトレーニングフレームワークよりも優れたスピードアップを提供することを示した。
関連論文リスト
- Distributed Training of Large Graph Neural Networks with Variable Communication Rates [71.7293735221656]
大きなグラフ上でグラフニューラルネットワーク(GNN)をトレーニングすることは、大きなメモリとコンピューティング要件のために、ユニークな課題を提示する。
グラフを複数のマシンに分割する分散GNNトレーニングは、大きなグラフ上でGNNをトレーニングするための一般的なアプローチである。
本稿では,学習モデルの精度を損なうことなく,分散GNNトレーニングにおける通信量を削減するための可変圧縮方式を提案する。
論文 参考訳(メタデータ) (2024-06-25T14:57:38Z) - CATGNN: Cost-Efficient and Scalable Distributed Training for Graph Neural Networks [7.321893519281194]
既存の分散システムは、グラフパーティショニングのためにメモリ内のグラフ全体をロードします。
低コストでスケーラブルな分散GNNトレーニングシステムであるCATGNNを提案する。
また、分散GNNトレーニングのためのSPRingという新しいストリーミング分割アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-02T20:55:39Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Graph Ladling: Shockingly Simple Parallel GNN Training without
Intermediate Communication [100.51884192970499]
GNNは、グラフを学習するニューラルネットワークの強力なファミリーである。
GNNのスケーリングは、肥大化または拡大によって、不健康な勾配、過度なスムースメント、情報のスカッシングといった問題に悩まされる。
本稿では,現在のGNNの深層化や拡張ではなく,GNNに適したモデルスープをデータ中心の視点で表現することを提案する。
論文 参考訳(メタデータ) (2023-06-18T03:33:46Z) - You Can Have Better Graph Neural Networks by Not Training Weights at
All: Finding Untrained GNNs Tickets [105.24703398193843]
グラフニューラルネットワーク(GNN)の未訓練作業はまだ謎のままだ。
得られた未学習作品によって,GNNの過度なスムース化問題を大幅に軽減できることを示す。
また,そのような未学習作業が,入力摂動の分布外検出と堅牢性に優れていることも観察した。
論文 参考訳(メタデータ) (2022-11-28T14:17:36Z) - Distributed Graph Neural Network Training: A Survey [51.77035975191926]
グラフニューラルネットワーク(GNN)は、グラフに基づいてトレーニングされたディープラーニングモデルの一種で、さまざまな領域にうまく適用されている。
GNNの有効性にもかかわらず、GNNが大規模グラフに効率的にスケールすることは依然として困難である。
治療法として、分散コンピューティングは大規模GNNをトレーニングするための有望なソリューションとなる。
論文 参考訳(メタデータ) (2022-11-01T01:57:00Z) - Learn Locally, Correct Globally: A Distributed Algorithm for Training
Graph Neural Networks [22.728439336309858]
通信効率の良い分散GNNトレーニング手法であるtextLearn Locally, Correct Globally$ (LLCG)を提案する。
LLCGは、異なるマシン間のノード間の依存関係を無視してGNNをローカルデータでトレーニングし、その後、定期的なモデル平均化のためにローカルにトレーニングされたモデルをサーバに送信する。
我々は,GNNを訓練するための周期モデル平均化による分散手法の収束度を厳密に分析し,周期モデル平均化を適用するが,ノード間の依存性を無視することは既約残差に悩まされることを示す。
論文 参考訳(メタデータ) (2021-11-16T03:07:01Z) - SpreadGNN: Serverless Multi-task Federated Learning for Graph Neural
Networks [13.965982814292971]
グラフニューラルネットワーク(GNN)は、グラフ機械学習問題の第一選択方法である。
GNNトレーニングのための大量の実世界のグラフデータを集中させることは、ユーザ側のプライバシー上の懸念から禁じられている。
本研究では,新しいマルチタスク・フェデレーション・トレーニング・フレームワークであるSpreadGNNを提案する。
論文 参考訳(メタデータ) (2021-06-04T22:20:47Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。