論文の概要: DS-Sync: Addressing Network Bottlenecks with Divide-and-Shuffle
Synchronization for Distributed DNN Training
- arxiv url: http://arxiv.org/abs/2007.03298v2
- Date: Thu, 13 Jan 2022 03:12:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 19:15:31.472976
- Title: DS-Sync: Addressing Network Bottlenecks with Divide-and-Shuffle
Synchronization for Distributed DNN Training
- Title(参考訳): DS-Sync:分散DNNトレーニングのための分割・シャッフル同期によるネットワーク起動
- Authors: Weiyan Wang, Cengguang Zhang, Liu Yang, Kai Chen, Kun Tan
- Abstract要約: 本稿では,分散DNN訓練における収束精度を犠牲にすることなく,通信効率を向上する新たな分割・シャッフル同期(DS-Sync)を提案する。
DS-Syncは同じ精度を維持しつつ、既存のソリューションでエンドツーエンドのトレーニング時間を最大94%改善できることを示す。
- 参考スコア(独自算出の注目度): 15.246142393381488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bulk synchronous parallel (BSP) is the de-facto paradigm for distributed DNN
training in today's production clusters. However, due to the global
synchronization nature, its performance can be significantly influenced by
network bottlenecks caused by either static topology heterogeneity or dynamic
bandwidth contentions. Existing solutions, either system-level optimizations
strengthening BSP (e.g., Ring or Hierarchical All-reduce) or algorithmic
optimizations replacing BSP (e.g., ASP or SSP, which relax the global
barriers), do not completely solve the problem, as they may still suffer from
communication inefficiency or risk convergence inaccuracy.
In this paper, we present a novel divide-and-shuffle synchronization
(DS-Sync) to realize communication efficiency without sacrificing convergence
accuracy for distributed DNN training. At its heart, by taking into account the
network bottlenecks, DS-Sync improves communication efficiency by dividing
workers into non-overlap groups to synchronize independently in a
bottleneck-free manner. Meanwhile, it maintains convergence accuracy by
iteratively shuffling workers among different groups to ensure a global
consensus. We theoretically prove that DS-Sync converges properly in non-convex
and smooth conditions like DNN. We further implement DS-Sync and integrate it
with PyTorch, and our testbed experiments show that DS-Sync can achieve up to
$94\%$ improvements on the end-to-end training time with existing solutions
while maintaining the same accuracy.
- Abstract(参考訳): バルク同期並列(BSP)は、今日のプロダクションクラスタにおける分散DNNトレーニングのためのデファクトパラダイムである。
しかし、グローバル同期の性質のため、その性能は静的トポロジの不均一性や動的帯域幅の競合に起因するネットワークボトルネックの影響が大きい。
既存のソリューションでは、BSPを強化するシステムレベルの最適化(例えば、リングや階層的オールリデュース)や、BSPを置き換えるアルゴリズム最適化(例えば、グローバル障壁を緩和するASPやSSP)は、通信不効率やリスク収束の不正確さに悩まされているため、完全には解決しない。
本稿では,分散DNNトレーニングにおける収束精度を犠牲にすることなく,通信効率を向上する新しい分割・シャッフル同期(DS-Sync)を提案する。
ネットワークボトルネックを考慮して、DS-Syncは、労働者を非オーバーラップグループに分割し、ボトルネックのない独立に同期させることにより、通信効率を向上させる。
一方、グローバルなコンセンサスを確保するため、異なるグループ間で労働者を反復的にシャッフルすることで収束精度を維持する。
DS-SyncがDNNのような非凸および滑らかな条件で適切に収束することを理論的に証明する。
我々はさらにDS-Syncを実装し、PyTorchと統合し、テストベッド実験により、DS-Syncは同じ精度を維持しながら、既存のソリューションでエンドツーエンドのトレーニング時間を最大9,4 %改善できることが示されている。
関連論文リスト
- Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - Federated Contextual Cascading Bandits with Asynchronous Communication
and Heterogeneous Users [95.77678166036561]
繊細な通信プロトコルを用いたUPB型アルゴリズムを提案する。
同期フレームワークで達成されたものと同等のサブ線形後悔境界を与えます。
合成および実世界のデータセットに関する実証評価は、後悔と通信コストの観点から、我々のアルゴリズムの優れた性能を検証する。
論文 参考訳(メタデータ) (2024-02-26T05:31:14Z) - Robust Fully-Asynchronous Methods for Distributed Training over General
Architecture [12.271245147370202]
分散機械学習問題における完全な同期は、レイテンシ、パッケージの損失、ストラグラーの存在のため、非効率であり、不可能である。
本稿では,R-FAST (Fully-Asynchronous Gradient Tracking Method) を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:36:40Z) - Accelerating Distributed ML Training via Selective Synchronization [0.0]
textttSelSyncは、DNNトレーニングの実践的で低オーバーヘッドな方法であり、各ステップでコミュニケーションを発生または回避することを動的に選択する。
トレーニング時間を最大14$times$まで短縮しながら,BSPと同等あるいはより優れた精度に収束する。
論文 参考訳(メタデータ) (2023-07-16T05:28:59Z) - Semi-Synchronous Personalized Federated Learning over Mobile Edge
Networks [88.50555581186799]
我々は,モバイルエッジネットワーク上での半同期パーソナライズフェデレーション(PerFedS$2$)と呼ばれる半同期PFLアルゴリズムを提案する。
我々は、グローバルラウンド当たりの参加者数とラウンド数の観点から、PerFedS2の収束率の上限を導出する。
PerFedS2はトレーニング時間を節約し、トレーニング損失の収束を保証する。
論文 参考訳(メタデータ) (2022-09-27T02:12:43Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z) - Edge Continual Learning for Dynamic Digital Twins over Wireless Networks [68.65520952712914]
デジタルツイン(DT)は、現実世界とメタバースの間の重要なリンクを構成する。
本稿では,物理的双生児とそれに対応するサイバー双生児の親和性を正確にモデル化する新しいエッジ連続学習フレームワークを提案する。
提案するフレームワークは,破滅的忘れ込みに対して頑健な,高精度かつ同期的なCTモデルを実現する。
論文 参考訳(メタデータ) (2022-04-10T23:25:37Z) - Locally Asynchronous Stochastic Gradient Descent for Decentralised Deep
Learning [0.0]
Local Asynchronous SGD (LASGD) は、モデル同期にAll Reduceに依存する非同期分散アルゴリズムである。
ImageNetデータセット上の画像分類タスクにおいて、LASGDの性能を実証的に検証する。
論文 参考訳(メタデータ) (2022-03-24T14:25:15Z) - Sync-Switch: Hybrid Parameter Synchronization for Distributed Deep
Learning [10.196574441542646]
Gradient Descent(SGD)は、分散クラスタでディープニューラルネットワークをトレーニングする事実上の方法となっている。
トレーニングスループットとモデルの精度を決定する上で重要な要因はパラメータ同期プロトコルの選択である。
本稿では、BSPとASP.NETの両方の利点を利用するハイブリッド同期アプローチを設計する。
論文 参考訳(メタデータ) (2021-04-16T20:49:28Z) - Accelerating Neural Network Training with Distributed Asynchronous and
Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。
DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。
DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2021-04-12T16:02:20Z) - Asynchronous Decentralized Learning of a Neural Network [49.15799302636519]
我々は、ARockと呼ばれる非同期コンピューティングフレームワークを利用して、分散シナリオでフィードフォワードニューラルネットワーク(SSFN)を推定する自己サイズ推定と呼ばれるディープニューラルネットワークを学習する。
非同期分散SSFNは1ノードのアクティベーションと一方の通信を許容することで通信ボトルネックを緩和し、通信オーバーヘッドを大幅に低減する。
実験結果において、非同期dSSFNと従来の同期dSSFNを比較し、特に通信ネットワークが疎い場合に、非同期dSSFNの競合性能を示す。
論文 参考訳(メタデータ) (2020-04-10T15:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。