論文の概要: A Quantitative Survey of Communication Optimizations in Distributed Deep
Learning
- arxiv url: http://arxiv.org/abs/2005.13247v2
- Date: Sat, 7 Nov 2020 07:05:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 09:58:24.045162
- Title: A Quantitative Survey of Communication Optimizations in Distributed Deep
Learning
- Title(参考訳): 分散ディープラーニングにおける通信最適化の定量的調査
- Authors: Shaohuai Shi, Zhenheng Tang, Xiaowen Chu, Chengjian Liu, Wei Wang, Bo
Li
- Abstract要約: 大規模で複雑なディープラーニング(DL)モデルは、複数のワーカマシンに分散的にトレーニングされている。
労働者間の大規模なコミュニケーションは、深刻なスケーリング問題を引き起こす。
本稿では,データ並列分散DLにおける通信最適化手法の定量的調査を行う。
- 参考スコア(独自算出の注目度): 19.514207840069616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, large and complex deep learning (DL) models are increasingly
trained in a distributed manner across multiple worker machines, in which
extensive communications between workers pose serious scaling problems. In this
article, we present a quantitative survey of communication optimization
techniques for data parallel distributed DL. We first identify the major
communication challenges and classify the existing solutions into three levels,
namely the learning algorithm, the system architecture, and the network
infrastructure. We present the state-of-the-art communication optimization
techniques and conduct a comparative study of seven common lossless distributed
DL methods on a 32-GPU cluster with 100Gbps InfiniBand (IB). We show that (1)
the DL models with low model intensity (such as BERT and BERT-Large) are
difficult to scale out even with the best available lossless algorithm over
100Gbps IB; (2) the system architecture and scheduling algorithms have a
critical impact on the scaling property. We conclude the article with
discussions on the open issues for further investigations.
- Abstract(参考訳): 今日では、大規模かつ複雑なディープラーニング(DL)モデルは、労働者間の広範なコミュニケーションが深刻なスケーリング問題を引き起こす複数のワーカーマシンに分散的に訓練されている。
本稿では,データ並列分散DLにおける通信最適化手法の定量的検討を行う。
まず、主要なコミュニケーション課題を特定し、既存のソリューションを学習アルゴリズム、システムアーキテクチャ、ネットワークインフラストラクチャという3つのレベルに分類する。
本稿では,最先端の通信最適化手法を提案し,100gbps infiniband (ib) の32gpuクラスタ上での7つの共通ロスレス分散dl法の比較検討を行う。
本稿では,(1)低モデル強度のDLモデル(BERTやBERT-Largeなど)は,100Gbps IBを超える最高のロスレスアルゴリズムであってもスケールアウトが困難であること,(2)システムアーキテクチャとスケジューリングアルゴリズムがスケーリング特性に重大な影響を与えること,を示す。
本稿は、今後の調査に向けた公開課題に関する議論をまとめてまとめる。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Rephrase and Contrast: Fine-Tuning Language Models for Enhanced Understanding of Communication and Computer Networks [13.829525575305206]
本稿では,効率的な微調整フレームワークであるRephrase and Contrast(RaC)フレームワークについて紹介する。
RaCは質問の修正と対照的な分析を取り入れることでLLMの理解と批判的思考能力を高める。
本稿では,RaC微調整のためのデータセットを効率的に構築するために,高品質な質問応答対を生成するためのGPT支援データマイニング法を開発した。
論文 参考訳(メタデータ) (2024-09-21T16:04:43Z) - Overlay-based Decentralized Federated Learning in Bandwidth-limited Networks [3.9162099309900835]
分散連合学習(DFL)は、中央集権的調整なしに分散エージェントを直接学習することで、人工知能(AI)の展開を促進するという約束を持っている。
既存のソリューションの多くは、隣接するエージェントが基盤となる通信ネットワークに物理的に隣接しているという単純な仮定に基づいている。
我々は,帯域幅制限ネットワークにおける通信要求と通信スケジュールを,基礎となるネットワークからの明示的な協力を必要とせず,共同で設計する。
論文 参考訳(メタデータ) (2024-08-08T18:05:11Z) - Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey [43.57122822150023]
本稿では,大規模分散ディープラーニングにおける効率的なコミュニケーションの実現を目的とした,アルゴリズムと技術に関する文献調査を行う。
まず,大規模分散学習の文脈において,モデル同期と通信データ圧縮のための効率的なアルゴリズムを導入する。
次に、分散トレーニングおよび推論におけるリソース割り当てとタスクスケジューリングに関する効率的な戦略を導入する。
論文 参考訳(メタデータ) (2024-04-09T08:35:04Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Multi-agent Communication with Graph Information Bottleneck under
Limited Bandwidth (a position paper) [92.11330289225981]
多くの実世界のシナリオでは、通信は高価であり、マルチエージェントシステムの帯域幅には一定の制約がある。
通信資源を占有する冗長なメッセージは、情報的メッセージの送信をブロックし、パフォーマンスを損なう。
本稿では,通信グラフ内の構造情報とノード情報を効果的に圧縮し,帯域幅に制約のある設定に対処する,新しいマルチエージェント通信モジュールCommGIBを提案する。
論文 参考訳(メタデータ) (2021-12-20T07:53:44Z) - Federated Learning over Wireless IoT Networks with Optimized
Communication and Resources [98.18365881575805]
協調学習技術のパラダイムとしてのフェデレートラーニング(FL)は研究の注目を集めている。
無線システム上での高速応答および高精度FLスキームの検証が重要である。
提案する通信効率のよいフェデレーション学習フレームワークは,強い線形速度で収束することを示す。
論文 参考訳(メタデータ) (2021-10-22T13:25:57Z) - A Tutorial on Ultra-Reliable and Low-Latency Communications in 6G:
Integrating Domain Knowledge into Deep Learning [115.75967665222635]
超信頼性・低レイテンシ通信(URLLC)は、様々な新しいミッションクリティカルなアプリケーションの開発の中心となる。
ディープラーニングアルゴリズムは、将来の6GネットワークでURLLCを実現する技術を開発するための有望な方法と考えられている。
このチュートリアルでは、URLLCのさまざまなディープラーニングアルゴリズムにドメイン知識を組み込む方法について説明する。
論文 参考訳(メタデータ) (2020-09-13T14:53:01Z) - Communication-Efficient Distributed Deep Learning: A Comprehensive
Survey [22.42450750097714]
本稿では,コミュニケーション効率のよい分散学習アルゴリズムの総合的な調査を行う。
まず,データ並列分散トレーニングアルゴリズムの分類法を提案する。
次に、これらの4次元の問題に対処する最先端の研究について検討する。
論文 参考訳(メタデータ) (2020-03-10T05:42:44Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。