Fugu-MT 論文翻訳(概要): Expediting Distributed DNN Training with Device Topology-Aware Graph Deployment

論文の概要: Expediting Distributed DNN Training with Device Topology-Aware Graph Deployment

arxiv url: http://arxiv.org/abs/2302.06126v1
Date: Mon, 13 Feb 2023 06:30:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-14 16:35:17.745995
Title: Expediting Distributed DNN Training with Device Topology-Aware Graph Deployment
Title（参考訳）: デバイストポロジ対応グラフ展開による分散DNNトレーニングの高速化
Authors: Shiwei Zhang, Xiaodong Yi, Lansong Diao, Chuan Wu, Siyu Wang, and Wei Lin
Abstract要約: TAGは、最適化されたDNNトレーニンググラフとそのデバイストポロジへのデプロイを導出する自動システムである。既存のスキームと比較して最大4.56倍のトレーニングスピードアップを実現可能であることを示す。
参考スコア（独自算出の注目度）: 18.021259939659874
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents TAG, an automatic system to derive optimized DNN training graph and its deployment onto any device topology, for expedited training in device- and topology- heterogeneous ML clusters. We novelly combine both the DNN computation graph and the device topology graph as input to a graph neural network (GNN), and join the GNN with a search-based method to quickly identify optimized distributed training strategies. To reduce communication in a heterogeneous cluster, we further explore a lossless gradient compression technique and solve a combinatorial optimization problem to automatically apply the technique for training time minimization. We evaluate TAG with various representative DNN models and device topologies, showing that it can achieve up to 4.56x training speed-up as compared to existing schemes. TAG can produce efficient deployment strategies for both unseen DNN models and unseen device topologies, without heavy fine-tuning.
Abstract（参考訳）: 本稿では,最適化されたdnnトレーニンググラフとそのデバイストポロジへの配置を自動的に導出するシステムであるtagを提案する。グラフニューラルネットワーク(GNN)への入力として,DNN計算グラフとデバイストポロジグラフの両方を新たに結合し,最適化された分散トレーニング戦略を迅速に識別する検索ベースの手法でGNNと結合する。ヘテロジニアスクラスタにおける通信を減らすために,ロスレス勾配圧縮手法をさらに検討し,組合せ最適化問題を解き,学習時間最小化手法を自動適用する。様々な代表的DNNモデルとデバイストポロジを用いてTAGを評価し,既存のスキームと比較して最大4.56倍のトレーニング速度を達成可能であることを示す。 TAGは、未確認のDNNモデルと未確認のデバイストポロジの両方に対して、大規模な微調整なしで効率的なデプロイメント戦略を作成できる。

関連論文リスト

FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Graph Coordinates and Conventional Neural Networks -- An Alternative for Graph Neural Networks [0.10923877073891444]
メッセージパッシングGNNの新たな代替手段として,Topology Coordinate Neural Network (TCNN) と Directional Virtual Coordinate Neural Network (DVCNN) を提案する。 TCNNとDVCNNは、メッセージパッシングGNNの競合や優れたパフォーマンスを達成する。私たちの研究は、グラフベースの機械学習のためのテクニックのツールボックスを拡張します。
論文参考訳（メタデータ） (2023-12-03T10:14:10Z)
Efficient Heterogeneous Graph Learning via Random Projection [58.4138636866903]
不均一グラフニューラルネットワーク(HGNN)は、異種グラフを深層学習するための強力なツールである。最近のプリ計算ベースのHGNNは、一時間メッセージパッシングを使用して不均一グラフを正規形テンソルに変換する。我々はRandom Projection Heterogeneous Graph Neural Network (RpHGNN) というハイブリッド計算前HGNNを提案する。
論文参考訳（メタデータ） (2023-10-23T01:25:44Z)
T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文参考訳（メタデータ） (2023-10-05T02:58:29Z)
Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文参考訳（メタデータ） (2023-08-06T21:04:58Z)
Learning Cooperative Beamforming with Edge-Update Empowered Graph Neural Networks [29.23937571816269]
グラフエッジ上での協調ビームフォーミングを学習するためのエッジグラフニューラルネットワーク(Edge-GNN)を提案する。提案したEdge-GNNは、最先端の手法よりも計算時間をはるかに短くして、より高い和率を達成する。
論文参考訳（メタデータ） (2022-11-23T02:05:06Z)
Distributed Graph Neural Network Training: A Survey [51.77035975191926]
グラフニューラルネットワーク(GNN)は、グラフに基づいてトレーニングされたディープラーニングモデルの一種で、さまざまな領域にうまく適用されている。 GNNの有効性にもかかわらず、GNNが大規模グラフに効率的にスケールすることは依然として困難である。治療法として、分散コンピューティングは大規模GNNをトレーニングするための有望なソリューションとなる。
論文参考訳（メタデータ） (2022-11-01T01:57:00Z)
GNN at the Edge: Cost-Efficient Graph Neural Network Processing over Distributed Edge Servers [24.109721494781592]
グラフニューラルネットワーク(GNN)はまだ探索中であり、その広範な採用に対する大きな違いを示している。本稿では,多層ヘテロジニアスエッジネットワーク上での分散GNN処理のコスト最適化について検討する。提案手法は, 高速収束速度で95.8%以上のコスト削減を行い, デファクトベースラインよりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2022-10-31T13:03:16Z)
Distributed Graph Neural Network Training with Periodic Historical Embedding Synchronization [9.503080586294406]
グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク、レコメンダシステム、ナレッジグラフなどの様々なアプリケーションで広く使われている。従来のサンプリングベースの手法は、エッジとノードをドロップすることでGNNを加速し、グラフの整合性とモデル性能を損なう。本稿では,新しい分散GNNトレーニングフレームワークであるDIstributed Graph Embedding SynchronizaTion (DIGEST)を提案する。
論文参考訳（メタデータ） (2022-05-31T18:44:53Z)
Fast Learning of Graph Neural Networks with Guaranteed Generalizability: One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文参考訳（メタデータ） (2020-06-25T00:45:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。