論文の概要: Boosting Distributed Full-graph GNN Training with Asynchronous One-bit
Communication
- arxiv url: http://arxiv.org/abs/2303.01277v1
- Date: Thu, 2 Mar 2023 14:02:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:12:50.078765
- Title: Boosting Distributed Full-graph GNN Training with Asynchronous One-bit
Communication
- Title(参考訳): 非同期1ビット通信による分散フルグラフGNNトレーニングの強化
- Authors: Meng Zhang, Qinghao Hu, Peng Sun, Yonggang Wen, Tianwei Zhang
- Abstract要約: 大規模なグラフ上でグラフニューラルネットワーク(GNN)をトレーニングすることは、高いメモリ要求と限られたGPUメモリとの競合のため、難しい。
本稿では,GNNにおける1ビット量子化計算手法を用いた分散GNN学習フレームワークSylvieを提案する。
詳細は、Sylvie氏は、送信したデータを定量化し、受信したデータを各レイヤの完全な精度の値に戻すための軽量な低ビットモジュールを提供する。
- 参考スコア(独自算出の注目度): 23.883543151975136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training Graph Neural Networks (GNNs) on large graphs is challenging due to
the conflict between the high memory demand and limited GPU memory. Recently,
distributed full-graph GNN training has been widely adopted to tackle this
problem. However, the substantial inter-GPU communication overhead can cause
severe throughput degradation. Existing communication compression techniques
mainly focus on traditional DNN training, whose bottleneck lies in
synchronizing gradients and parameters. We find they do not work well in
distributed GNN training as the barrier is the layer-wise communication of
features during the forward pass & feature gradients during the backward pass.
To this end, we propose an efficient distributed GNN training framework Sylvie,
which employs one-bit quantization technique in GNNs and further pipelines the
curtailed communication with computation to enormously shrink the overhead
while maintaining the model quality. In detail, Sylvie provides a lightweight
Low-bit Module to quantize the sent data and dequantize the received data back
to full precision values in each layer. Additionally, we propose a Bounded
Staleness Adaptor to control the introduced staleness to achieve further
performance enhancement. We conduct theoretical convergence analysis and
extensive experiments on various models & datasets to demonstrate Sylvie can
considerably boost the training throughput by up to 28.1x.
- Abstract(参考訳): 大規模グラフ上でのグラフニューラルネットワーク(gnn)のトレーニングは、高メモリ要求とgpuメモリの制限との衝突のために難しい。
近年,この問題に対処するために分散フルグラフGNNトレーニングが広く採用されている。
しかし、GPU間通信のオーバーヘッドが大きくなり、スループットが大幅に低下する可能性がある。
既存の通信圧縮技術は主に従来のdnnトレーニングにフォーカスしており、そのボトルネックは勾配とパラメータの同期にある。
分散GNNトレーニングでは,前方通過時の機能と後方通過時の機能勾配の階層的コミュニケーションが障壁となるため,うまく動作しないことがわかった。
そこで本研究では,gnnにおける1ビット量子化技術を用いた効率的な分散gnn学習フレームワークsylvieを提案する。
詳しくは、sylvieは送信されたデータを量子化し、受信したデータを各レイヤの完全な精度値に戻す軽量な低ビットモジュールを提供する。
さらに,さらなる性能向上を実現するために,導入したステイレネスを制御するための境界付きステイレネスアダプタを提案する。
sylvieがトレーニングスループットを最大28.1倍向上させることを示すため,様々なモデルとデータセットの理論的収束解析と広範な実験を行った。
関連論文リスト
- Distributed Training of Large Graph Neural Networks with Variable Communication Rates [71.7293735221656]
大きなグラフ上でグラフニューラルネットワーク(GNN)をトレーニングすることは、大きなメモリとコンピューティング要件のために、ユニークな課題を提示する。
グラフを複数のマシンに分割する分散GNNトレーニングは、大きなグラフ上でGNNをトレーニングするための一般的なアプローチである。
本稿では,学習モデルの精度を損なうことなく,分散GNNトレーニングにおける通信量を削減するための可変圧縮方式を提案する。
論文 参考訳(メタデータ) (2024-06-25T14:57:38Z) - Label Deconvolution for Node Representation Learning on Large-scale
Attributed Graphs against Learning Bias [75.44877675117749]
本稿では,GNNの逆写像に対する新しい,スケーラブルな近似による学習バイアスを軽減するために,ラベルの効率的な正規化手法,すなわちラベルのデコンボリューション(LD)を提案する。
実験では、LDはOpen Graphデータセットのベンチマークで最先端のメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2023-09-26T13:09:43Z) - Staleness-Alleviated Distributed GNN Training via Online
Dynamic-Embedding Prediction [13.575053193557697]
本稿では,新しい分散GNNトレーニングフレームワークSAT(Staleness-Alleviated Training)を提案する。
SATのキーとなる考え方は、GNNの埋め込み進化を時間グラフとしてモデル化し、その上にモデルを構築し、将来の埋め込みを予測することである。
実験により,SATは埋込安定性を効果的に低減し,より優れた性能と収束速度を実現することができることを示した。
論文 参考訳(メタデータ) (2023-08-25T16:10:44Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Adaptive Message Quantization and Parallelization for Distributed
Full-graph GNN Training [6.557328947642343]
大きなグラフ上のグラフニューラルネットワーク(GNN)の分散フルグラフトレーニングは、帯域幅の要求と時間を要する。
本稿では,分散フルグラフ学習を高速化する効率的なGNNトレーニングシステムであるAdaQPを提案する。
論文 参考訳(メタデータ) (2023-06-02T09:02:09Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - Distributed Graph Neural Network Training with Periodic Historical
Embedding Synchronization [9.503080586294406]
グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク、レコメンダシステム、ナレッジグラフなどの様々なアプリケーションで広く使われている。
従来のサンプリングベースの手法は、エッジとノードをドロップすることでGNNを加速し、グラフの整合性とモデル性能を損なう。
本稿では,新しい分散GNNトレーニングフレームワークであるDIstributed Graph Embedding SynchronizaTion (DIGEST)を提案する。
論文 参考訳(メタデータ) (2022-05-31T18:44:53Z) - CAP: Co-Adversarial Perturbation on Weights and Features for Improving
Generalization of Graph Neural Networks [59.692017490560275]
敵の訓練は、敵の攻撃に対するモデルの堅牢性を改善するために広く実証されてきた。
グラフ解析問題におけるGNNの一般化能力をどのように改善するかは、まだ不明である。
我々は、重みと特徴量の観点から共振器摂動(CAP)最適化問題を構築し、重みと特徴の損失を交互に平らにする交互対振器摂動アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-10-28T02:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。