論文の概要: Expediting Distributed DNN Training with Device Topology-Aware Graph
Deployment
- arxiv url: http://arxiv.org/abs/2302.06126v1
- Date: Mon, 13 Feb 2023 06:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 16:35:17.745995
- Title: Expediting Distributed DNN Training with Device Topology-Aware Graph
Deployment
- Title(参考訳): デバイストポロジ対応グラフ展開による分散DNNトレーニングの高速化
- Authors: Shiwei Zhang, Xiaodong Yi, Lansong Diao, Chuan Wu, Siyu Wang, and Wei
Lin
- Abstract要約: TAGは、最適化されたDNNトレーニンググラフとそのデバイストポロジへのデプロイを導出する自動システムである。
既存のスキームと比較して最大4.56倍のトレーニングスピードアップを実現可能であることを示す。
- 参考スコア(独自算出の注目度): 18.021259939659874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents TAG, an automatic system to derive optimized DNN training
graph and its deployment onto any device topology, for expedited training in
device- and topology- heterogeneous ML clusters. We novelly combine both the
DNN computation graph and the device topology graph as input to a graph neural
network (GNN), and join the GNN with a search-based method to quickly identify
optimized distributed training strategies. To reduce communication in a
heterogeneous cluster, we further explore a lossless gradient compression
technique and solve a combinatorial optimization problem to automatically apply
the technique for training time minimization. We evaluate TAG with various
representative DNN models and device topologies, showing that it can achieve up
to 4.56x training speed-up as compared to existing schemes. TAG can produce
efficient deployment strategies for both unseen DNN models and unseen device
topologies, without heavy fine-tuning.
- Abstract(参考訳): 本稿では,最適化されたdnnトレーニンググラフとそのデバイストポロジへの配置を自動的に導出するシステムであるtagを提案する。
グラフニューラルネットワーク(GNN)への入力として,DNN計算グラフとデバイストポロジグラフの両方を新たに結合し,最適化された分散トレーニング戦略を迅速に識別する検索ベースの手法でGNNと結合する。
ヘテロジニアスクラスタにおける通信を減らすために,ロスレス勾配圧縮手法をさらに検討し,組合せ最適化問題を解き,学習時間最小化手法を自動適用する。
様々な代表的DNNモデルとデバイストポロジを用いてTAGを評価し,既存のスキームと比較して最大4.56倍のトレーニング速度を達成可能であることを示す。
TAGは、未確認のDNNモデルと未確認のデバイストポロジの両方に対して、大規模な微調整なしで効率的なデプロイメント戦略を作成できる。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Graph Coordinates and Conventional Neural Networks -- An Alternative for
Graph Neural Networks [0.10923877073891444]
メッセージパッシングGNNの新たな代替手段として,Topology Coordinate Neural Network (TCNN) と Directional Virtual Coordinate Neural Network (DVCNN) を提案する。
TCNNとDVCNNは、メッセージパッシングGNNの競合や優れたパフォーマンスを達成する。
私たちの研究は、グラフベースの機械学習のためのテクニックのツールボックスを拡張します。
論文 参考訳(メタデータ) (2023-12-03T10:14:10Z) - Efficient Heterogeneous Graph Learning via Random Projection [58.4138636866903]
不均一グラフニューラルネットワーク(HGNN)は、異種グラフを深層学習するための強力なツールである。
最近のプリ計算ベースのHGNNは、一時間メッセージパッシングを使用して不均一グラフを正規形テンソルに変換する。
我々はRandom Projection Heterogeneous Graph Neural Network (RpHGNN) というハイブリッド計算前HGNNを提案する。
論文 参考訳(メタデータ) (2023-10-23T01:25:44Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Learning Cooperative Beamforming with Edge-Update Empowered Graph Neural
Networks [29.23937571816269]
グラフエッジ上での協調ビームフォーミングを学習するためのエッジグラフニューラルネットワーク(Edge-GNN)を提案する。
提案したEdge-GNNは、最先端の手法よりも計算時間をはるかに短くして、より高い和率を達成する。
論文 参考訳(メタデータ) (2022-11-23T02:05:06Z) - Distributed Graph Neural Network Training: A Survey [51.77035975191926]
グラフニューラルネットワーク(GNN)は、グラフに基づいてトレーニングされたディープラーニングモデルの一種で、さまざまな領域にうまく適用されている。
GNNの有効性にもかかわらず、GNNが大規模グラフに効率的にスケールすることは依然として困難である。
治療法として、分散コンピューティングは大規模GNNをトレーニングするための有望なソリューションとなる。
論文 参考訳(メタデータ) (2022-11-01T01:57:00Z) - GNN at the Edge: Cost-Efficient Graph Neural Network Processing over
Distributed Edge Servers [24.109721494781592]
グラフニューラルネットワーク(GNN)はまだ探索中であり、その広範な採用に対する大きな違いを示している。
本稿では,多層ヘテロジニアスエッジネットワーク上での分散GNN処理のコスト最適化について検討する。
提案手法は, 高速収束速度で95.8%以上のコスト削減を行い, デファクトベースラインよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-10-31T13:03:16Z) - Distributed Graph Neural Network Training with Periodic Historical
Embedding Synchronization [9.503080586294406]
グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク、レコメンダシステム、ナレッジグラフなどの様々なアプリケーションで広く使われている。
従来のサンプリングベースの手法は、エッジとノードをドロップすることでGNNを加速し、グラフの整合性とモデル性能を損なう。
本稿では,新しい分散GNNトレーニングフレームワークであるDIstributed Graph Embedding SynchronizaTion (DIGEST)を提案する。
論文 参考訳(メタデータ) (2022-05-31T18:44:53Z) - Learn Locally, Correct Globally: A Distributed Algorithm for Training
Graph Neural Networks [22.728439336309858]
通信効率の良い分散GNNトレーニング手法であるtextLearn Locally, Correct Globally$ (LLCG)を提案する。
LLCGは、異なるマシン間のノード間の依存関係を無視してGNNをローカルデータでトレーニングし、その後、定期的なモデル平均化のためにローカルにトレーニングされたモデルをサーバに送信する。
我々は,GNNを訓練するための周期モデル平均化による分散手法の収束度を厳密に分析し,周期モデル平均化を適用するが,ノード間の依存性を無視することは既約残差に悩まされることを示す。
論文 参考訳(メタデータ) (2021-11-16T03:07:01Z) - Fast Learning of Graph Neural Networks with Guaranteed Generalizability:
One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。
回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文 参考訳(メタデータ) (2020-06-25T00:45:52Z) - Binarized Graph Neural Network [65.20589262811677]
我々は二項化グラフニューラルネットワークを開発し、二項化ネットワークパラメータを用いてノードのバイナリ表現を学習する。
提案手法は既存のGNNベースの埋め込み手法にシームレスに統合できる。
実験により、提案された二項化グラフニューラルネットワーク、すなわちBGNは、時間と空間の両方の観点から、桁違いに効率的であることが示されている。
論文 参考訳(メタデータ) (2020-04-19T09:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。