論文の概要: GraNNDis: Efficient Unified Distributed Training Framework for Deep GNNs on Large Clusters
- arxiv url: http://arxiv.org/abs/2311.06837v2
- Date: Tue, 13 Aug 2024 01:16:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 23:14:44.125164
- Title: GraNNDis: Efficient Unified Distributed Training Framework for Deep GNNs on Large Clusters
- Title(参考訳): GraNNDis: 大規模クラスタ上でのディープGNNのための効率的な統一分散トレーニングフレームワーク
- Authors: Jaeyong Song, Hongsun Jang, Jaewon Jung, Youngsok Kim, Jinho Lee,
- Abstract要約: GraNNDisは、マルチサーバクラスタのための高速分散GNNトレーニングフレームワークである。
GraNNDisは最先端の分散GNNトレーニングフレームワークを大幅に高速化する。
- 参考スコア(独自算出の注目度): 7.584934706402951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph neural networks (GNNs) are one of the rapidly growing fields within deep learning. While many distributed GNN training frameworks have been proposed to increase the training throughput, they face three limitations when applied to multi-server clusters. 1) They suffer from an inter-server communication bottleneck because they do not consider the inter-/intra-server bandwidth gap, a representative characteristic of multi-server clusters. 2) Redundant memory usage and computation hinder the scalability of the distributed frameworks. 3) Sampling methods, de facto standard in mini-batch training, incur unnecessary errors in multi-server clusters. We found that these limitations can be addressed by exploiting the characteristics of multi-server clusters. Here, we propose GraNNDis, a fast distributed GNN training framework for multi-server clusters. Firstly, we present Flexible Preloading, which preloads the essential vertex dependencies server-wise to reduce the low-bandwidth inter-server communications. Secondly, we introduce Cooperative Batching, which enables memory-efficient, less redundant mini-batch training by utilizing high-bandwidth intra-server communications. Thirdly, we propose Expansion-aware Sampling, a cluster-aware sampling method, which samples the edges that affect the system speedup. As sampling the intra-server dependencies does not contribute much to the speedup as they are communicated through fast intra-server links, it only targets a server boundary to be sampled. Lastly, we introduce One-Hop Graph Masking, a computation and communication structure to realize the above methods in multi-server environments. We evaluated GraNNDis on multi-server clusters, and it provided significant speedup over the state-of-the-art distributed GNN training frameworks. GraNNDis is open-sourced at https://github.com/AIS-SNU/GraNNDis_Artifact to facilitate its use.
- Abstract(参考訳): グラフニューラルネットワーク(GNN)は、ディープラーニングにおいて急速に成長している分野の1つである。
トレーニングスループットを向上させるために、多くの分散GNNトレーニングフレームワークが提案されているが、マルチサーバクラスタに適用すると、3つの制限に直面している。
1) サーバ間通信のボトルネックは,マルチサーバクラスタの代表的な特徴である,サーバ間/サーバ間帯域ギャップを考慮しないためである。
2) 冗長メモリの使用と計算は分散フレームワークのスケーラビリティを妨げる。
3)ミニバッチトレーニングにおける事実上の標準であるサンプリング手法は,マルチサーバクラスタで不要なエラーを発生させる。
マルチサーバクラスタの特性を活用することで,これらの制限に対処できることが判明した。
本稿では,マルチサーバクラスタのための高速分散GNNトレーニングフレームワークであるGraNNDisを提案する。
まず、サーバ間の低帯域幅通信を減らすために、本質的な頂点依存性をサーバ単位でプリロードするFlexible Preloadingを提案する。
第2に、高帯域幅のサーバ内通信を利用することで、メモリ効率が良く、冗長なミニバッチトレーニングを可能にするCooperative Batchingを導入する。
第3に,クラスタ対応サンプリング手法であるExpandsion-Aware Smplingを提案する。
サーバ内依存関係のサンプリングは、高速なサーバ内リンクを通じて通信されるため、スピードアップにはあまり寄与しないため、サンプリングされるサーバ境界のみを対象としている。
最後に,この手法をマルチサーバ環境で実現するための計算・通信構造であるOne-Hop Graph Maskingを紹介する。
マルチサーバクラスタ上でGraNNDisを評価し,最先端の分散GNNトレーニングフレームワークの大幅な高速化を実現した。
GraNNDisはhttps://github.com/AIS-SNU/GraNNDis_Artifactでオープンソース公開されている。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Distributed Convolutional Neural Network Training on Mobile and Edge Clusters [0.9421843976231371]
機械学習タスクをエッジに完全にローカライズするための最近の取り組みが登場した。
これにより、レイテンシの低減とプライバシの向上にメリットがあるが、リソース制約のあるデバイスで作業する必要がある。
本稿では,モバイルデバイスとエッジデバイスのみを対象とした分散CNNトレーニングのアプローチについて述べる。
論文 参考訳(メタデータ) (2024-09-11T02:44:28Z) - CDFGNN: a Systematic Design of Cache-based Distributed Full-Batch Graph Neural Network Training with Communication Reduction [7.048300785744331]
グラフニューラルネットワークトレーニングは、主にミニバッチとフルバッチのトレーニング方法に分類される。
分散クラスタでは、機能とグラデーションの頻繁なリモートアクセスが、通信オーバーヘッドを大きくします。
キャッシュベースの分散フルバッチグラフニューラルネットワークトレーニングフレームワーク(CDFGNN)を紹介する。
本結果は,CDFGNNが分散フルバッチGNNトレーニングタスクを高速化する大きな可能性を示唆している。
論文 参考訳(メタデータ) (2024-08-01T01:57:09Z) - Communication Efficient ConFederated Learning: An Event-Triggered SAGA
Approach [67.27031215756121]
Federated Learning(FL)は、さまざまなデータソース上のローカルデータを収集することなく、モデルトレーニングをターゲットとする機械学習パラダイムである。
単一のサーバを使用するStandard FLは、限られた数のユーザしかサポートできないため、学習能力の低下につながる。
本研究では,多数のユーザに対応するために,emphConfederated Learning(CFL)と呼ばれるマルチサーバFLフレームワークを検討する。
論文 参考訳(メタデータ) (2024-02-28T03:27:10Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Timely Asynchronous Hierarchical Federated Learning: Age of Convergence [59.96266198512243]
クライアント-エッジ-クラウドフレームワークを用いた非同期階層型フェデレーション学習環境について検討する。
クライアントはトレーニングされたパラメータをエッジサーバと交換し、ローカルに集約されたモデルを更新する。
各クライアントの目標は、クライアントのタイムラインを維持しながら、グローバルモデルに収束することだ。
論文 参考訳(メタデータ) (2023-06-21T17:39:16Z) - Distributed SLIDE: Enabling Training Large Neural Networks on Low
Bandwidth and Simple CPU-Clusters via Model Parallelism and Sparsity [36.254527362066725]
本稿では,インターネット帯域幅の少ない小さなCPUクラスタ上で,大規模ニューラルネットワークのトレーニングを可能にする分散モデル並列トレーニングフレームワークを提案する。
通信の幅が狭くなれば、単純な4-16コアCPUノード上で10億近いパラメータモデルを訓練できることを示す。
論文 参考訳(メタデータ) (2022-01-29T21:37:34Z) - Learn Locally, Correct Globally: A Distributed Algorithm for Training
Graph Neural Networks [22.728439336309858]
通信効率の良い分散GNNトレーニング手法であるtextLearn Locally, Correct Globally$ (LLCG)を提案する。
LLCGは、異なるマシン間のノード間の依存関係を無視してGNNをローカルデータでトレーニングし、その後、定期的なモデル平均化のためにローカルにトレーニングされたモデルをサーバに送信する。
我々は,GNNを訓練するための周期モデル平均化による分散手法の収束度を厳密に分析し,周期モデル平均化を適用するが,ノード間の依存性を無視することは既約残差に悩まされることを示す。
論文 参考訳(メタデータ) (2021-11-16T03:07:01Z) - SpreadGNN: Serverless Multi-task Federated Learning for Graph Neural
Networks [13.965982814292971]
グラフニューラルネットワーク(GNN)は、グラフ機械学習問題の第一選択方法である。
GNNトレーニングのための大量の実世界のグラフデータを集中させることは、ユーザ側のプライバシー上の懸念から禁じられている。
本研究では,新しいマルチタスク・フェデレーション・トレーニング・フレームワークであるSpreadGNNを提案する。
論文 参考訳(メタデータ) (2021-06-04T22:20:47Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Towards Deeper Graph Neural Networks with Differentiable Group
Normalization [61.20639338417576]
グラフニューラルネットワーク(GNN)は、隣接するノードを集約することでノードの表現を学習する。
オーバースムーシングは、レイヤーの数が増えるにつれてGNNのパフォーマンスが制限される重要な問題のひとつです。
2つのオーバースムースなメトリクスと新しいテクニック、すなわち微分可能群正規化(DGN)を導入する。
論文 参考訳(メタデータ) (2020-06-12T07:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。