論文の概要: Communication optimization strategies for distributed deep neural
network training: A survey
- arxiv url: http://arxiv.org/abs/2003.03009v2
- Date: Mon, 23 Nov 2020 02:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:46:53.356771
- Title: Communication optimization strategies for distributed deep neural
network training: A survey
- Title(参考訳): 分散ディープニューラルネットワークトレーニングのための通信最適化戦略:調査
- Authors: Shuo Ouyang, Dezun Dong, Yemao Xu, Liquan Xiao
- Abstract要約: 高性能コンピューティングの最近の傾向は、大規模ディープニューラルネットワークトレーニングの研究の急増につながっている。
計算ノード間の頻繁な通信要求は、全体的なトレーニング速度を大幅に遅くする。
分散通信の欠点を軽減するため、研究者は様々な最適化戦略を提案している。
- 参考スコア(独自算出の注目度): 2.466065249430993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent trends in high-performance computing and deep learning have led to the
proliferation of studies on large-scale deep neural network training. However,
the frequent communication requirements among computation nodes drastically
slows the overall training speeds, which causes bottlenecks in distributed
training, particularly in clusters with limited network bandwidths. To mitigate
the drawbacks of distributed communications, researchers have proposed various
optimization strategies. In this paper, we provide a comprehensive survey of
communication strategies from both an algorithm viewpoint and a computer
network perspective. Algorithm optimizations focus on reducing the
communication volumes used in distributed training, while network optimizations
focus on accelerating the communications between distributed devices. At the
algorithm level, we describe how to reduce the number of communication rounds
and transmitted bits per round. In addition, we elucidate how to overlap
computation and communication. At the network level, we discuss the effects
caused by network infrastructures, including logical communication schemes and
network protocols. Finally, we extrapolate the potential future challenges and
new research directions to accelerate communications for distributed deep
neural network training.
- Abstract(参考訳): 高性能コンピューティングとディープラーニングの最近のトレンドは、大規模ディープニューラルネットワークトレーニングの研究の急増につながっている。
しかしながら、計算ノード間の頻繁な通信要求により、トレーニング全体の速度が劇的に低下し、分散トレーニング、特にネットワーク帯域幅が制限されたクラスタにおいてボトルネックが発生する。
分散通信の欠点を軽減するため、研究者は様々な最適化戦略を提案した。
本稿では,アルゴリズムとコンピュータネットワークの両方の観点から,コミュニケーション戦略の包括的調査を行う。
アルゴリズム最適化は分散トレーニングで使用される通信量を削減することに集中し、ネットワーク最適化は分散デバイス間の通信の高速化に重点を置いている。
アルゴリズムレベルでは、1ラウンドあたりの通信ラウンド数と送信ビット数を削減する方法について述べる。
さらに、計算と通信の重なり合う方法も解明する。
ネットワークレベルでは、論理的通信方式やネットワークプロトコルなど、ネットワークインフラストラクチャによる影響について論じる。
最後に,分散ディープニューラルネットワークトレーニングのためのコミュニケーションを加速するための今後の課題と新たな研究方向を推定する。
関連論文リスト
- Peer-to-Peer Learning Dynamics of Wide Neural Networks [10.179711440042123]
我々は,一般的なDGDアルゴリズムを用いて学習した広範ニューラルネットワークの学習力学を,明示的で非漸近的に特徴づける。
我々は,誤りや誤りを正確に予測し,分析結果を検証した。
論文 参考訳(メタデータ) (2024-09-23T17:57:58Z) - Overlay-based Decentralized Federated Learning in Bandwidth-limited Networks [3.9162099309900835]
分散連合学習(DFL)は、中央集権的調整なしに分散エージェントを直接学習することで、人工知能(AI)の展開を促進するという約束を持っている。
既存のソリューションの多くは、隣接するエージェントが基盤となる通信ネットワークに物理的に隣接しているという単純な仮定に基づいている。
我々は,帯域幅制限ネットワークにおける通信要求と通信スケジュールを,基礎となるネットワークからの明示的な協力を必要とせず,共同で設計する。
論文 参考訳(メタデータ) (2024-08-08T18:05:11Z) - Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey [43.57122822150023]
本稿では,大規模分散ディープラーニングにおける効率的なコミュニケーションの実現を目的とした,アルゴリズムと技術に関する文献調査を行う。
まず,大規模分散学習の文脈において,モデル同期と通信データ圧縮のための効率的なアルゴリズムを導入する。
次に、分散トレーニングおよび推論におけるリソース割り当てとタスクスケジューリングに関する効率的な戦略を導入する。
論文 参考訳(メタデータ) (2024-04-09T08:35:04Z) - A Novel Reinforcement Learning Routing Algorithm for Congestion Control
in Complex Networks [0.0]
本稿では,最短経路アルゴリズムに基づく渋滞制御と経路長最適化という,強化学習を活用するルーティングアルゴリズムを提案する。
提案手法は,バラビ・アルベルトスケールフリーネットワークだけでなく,Watts-Strogatz (小世界) や Erd"os-R'enyi (ランダムネットワーク) などのネットワークモデルでも有効であることを示す。
論文 参考訳(メタデータ) (2023-12-30T18:21:13Z) - Learning State-Augmented Policies for Information Routing in
Communication Networks [92.59624401684083]
我々は,グラフニューラルネットワーク(GNN)アーキテクチャを用いて,ソースノードの集約情報を最大化する,新たなステート拡張(SA)戦略を開発した。
教師なし学習手法を利用して、GNNアーキテクチャの出力を最適情報ルーティング戦略に変換する。
実験では,実時間ネットワークトポロジの評価を行い,アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2023-09-30T04:34:25Z) - A Comprehensive Survey on Distributed Training of Graph Neural Networks [59.785830738482474]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーション分野において強力なアルゴリズムモデルであることが示されている。
GNNトレーニングを大規模かつ継続的なグラフにスケールアップするために、最も有望なソリューションは分散トレーニングである。
分散GNNトレーニングに関する研究の規模は、非常に広範であり、出版のペースは極めて速い。
論文 参考訳(メタデータ) (2022-11-10T06:22:12Z) - Exploring Low Rank Training of Deep Neural Networks [49.18122605463354]
低ランクのディープニューラルネットワークのトレーニングは、メモリ消費とトレーニング時間の両方の観点から、非リファクタリングトレーニングよりも効率がよい。
我々は、実際にうまく機能する技術を分析し、GPT2のようなモデルに対する広範囲な改善を通じて、この分野における共通の信念を偽示する証拠を提供する。
論文 参考訳(メタデータ) (2022-09-27T17:43:45Z) - Federated Learning over Wireless IoT Networks with Optimized
Communication and Resources [98.18365881575805]
協調学習技術のパラダイムとしてのフェデレートラーニング(FL)は研究の注目を集めている。
無線システム上での高速応答および高精度FLスキームの検証が重要である。
提案する通信効率のよいフェデレーション学習フレームワークは,強い線形速度で収束することを示す。
論文 参考訳(メタデータ) (2021-10-22T13:25:57Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z) - Communication-Efficient Distributed Deep Learning: A Comprehensive
Survey [22.42450750097714]
本稿では,コミュニケーション効率のよい分散学習アルゴリズムの総合的な調査を行う。
まず,データ並列分散トレーニングアルゴリズムの分類法を提案する。
次に、これらの4次元の問題に対処する最先端の研究について検討する。
論文 参考訳(メタデータ) (2020-03-10T05:42:44Z) - Wireless Power Control via Counterfactual Optimization of Graph Neural
Networks [124.89036526192268]
本稿では,無線ネットワークにおけるダウンリンク電力制御の問題点について考察する。
コンカレントトランスミッション間の干渉を軽減するために,ネットワークトポロジを活用してグラフニューラルネットワークアーキテクチャを構築する。
次に、教師なし原始対実対実最適化手法を用いて最適電力配分決定を学習する。
論文 参考訳(メタデータ) (2020-02-17T07:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。