論文の概要: $\textbf{A}^2\textbf{CiD}^2$: Accelerating Asynchronous Communication in
Decentralized Deep Learning
- arxiv url: http://arxiv.org/abs/2306.08289v1
- Date: Wed, 14 Jun 2023 06:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 20:06:02.603663
- Title: $\textbf{A}^2\textbf{CiD}^2$: Accelerating Asynchronous Communication in
Decentralized Deep Learning
- Title(参考訳): $\textbf{A}^2\textbf{CiD}^2$:分散ディープラーニングにおける非同期通信の高速化
- Authors: Adel Nabli (MLIA, Mila), Eugene Belilovsky (Mila), Edouard Oyallon
(MLIA)
- Abstract要約: このアルゴリズムは、$textbfA2textbfCiD2$という連続運動量のおかげで動作する。
我々は、最大64の非同期ワーカーを使用して、ImageNetデータセットに一貫した改善を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed training of Deep Learning models has been critical to many recent
successes in the field. Current standard methods primarily rely on synchronous
centralized algorithms which induce major communication bottlenecks and limit
their usability to High-Performance Computing (HPC) environments with strong
connectivity. Decentralized asynchronous algorithms are emerging as a potential
alternative but their practical applicability still lags. In this work, we
focus on peerto-peer asynchronous methods due to their flexibility and
parallelization potentials. In order to mitigate the increase in bandwidth they
require at large scale and in poorly connected contexts, we introduce a
principled asynchronous, randomized, gossip-based algorithm which works thanks
to a continuous momentum named $\textbf{A}^2\textbf{CiD}^2$. In addition to
inducing a significant communication acceleration at no cost other than
doubling the parameters, minimal adaptation is required to incorporate
$\textbf{A}^2\textbf{CiD}^2$ to other asynchronous approaches. We demonstrate
its efficiency theoretically and numerically. Empirically on the ring graph,
adding $\textbf{A}^2\textbf{CiD}^2$ has the same effect as doubling the
communication rate. In particular, we show consistent improvement on the
ImageNet dataset using up to 64 asynchronous workers (A100 GPUs) and various
communication network topologies.
- Abstract(参考訳): ディープラーニングモデルの分散トレーニングは、この分野における多くの成功に不可欠である。
現在の標準手法は主に同期集中型アルゴリズムに依存しており、大きな通信ボトルネックを引き起こし、ユーザビリティを強い接続性を持つハイパフォーマンスコンピューティング(HPC)環境に制限する。
分散非同期アルゴリズムは潜在的な代替手段として登場しているが、実用性はまだ遅れている。
本研究では,その柔軟性と並列化の可能性から,ピアツーピア非同期手法に着目する。
大規模かつ接続の不十分な状況において,帯域幅の増加を緩和するために,$\textbf{A}^2\textbf{CiD}^2$という連続運動量のおかげで,非同期,ランダム化,ゴシップベースのアルゴリズムを導入する。
パラメータの倍増以外のコストで重要な通信アクセラレーションを発生させるのに加えて、$\textbf{A}^2\textbf{CiD}^2$を他の非同期アプローチに組み込む必要がある。
理論的・数値的にその効率を実証する。
環グラフ上で経験的に、$\textbf{A}^2\textbf{CiD}^2$は通信レートを倍にするのと同じ効果を持つ。
特に,最大64個の非同期ワーカ(a100 gpu)と各種通信ネットワークトポロジを用いたimagenetデータセットの一貫性向上を示す。
関連論文リスト
- ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training [16.560270624096706]
大規模言語モデルの分散学習に適したメモリ効率最適化アルゴリズムを提案する。
本手法は、勾配計算と通信の並列実行に固有の1ステップ遅れを軽減する新しい手法に依存する。
論文 参考訳(メタデータ) (2024-06-03T08:23:45Z) - Shadowheart SGD: Distributed Asynchronous SGD with Optimal Time Complexity Under Arbitrary Computation and Communication Heterogeneity [85.92481138826949]
我々は,従来の集中型手法の時間的複雑さを確実に改善する新しい手法であるShadowheart SGDを開発した。
また、サーバからワーカーへのブロードキャストが無視できない双方向設定も検討し、対応する方法を開発した。
論文 参考訳(メタデータ) (2024-02-07T12:15:56Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - Communication-Efficient Decentralized Federated Learning via One-Bit
Compressive Sensing [52.402550431781805]
分散連合学習(DFL)は、様々なアプリケーションにまたがる実用性によって人気を博している。
集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのはより難しい。
我々は,iADM (iexact alternating direction method) の枠組みに基づく新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-08-31T12:22:40Z) - Accelerating Distributed ML Training via Selective Synchronization [0.0]
textttSelSyncは、DNNトレーニングの実践的で低オーバーヘッドな方法であり、各ステップでコミュニケーションを発生または回避することを動的に選択する。
トレーニング時間を最大14$times$まで短縮しながら,BSPと同等あるいはより優れた精度に収束する。
論文 参考訳(メタデータ) (2023-07-16T05:28:59Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - DADAO: Decoupled Accelerated Decentralized Asynchronous Optimization [0.0]
DADAOは、L$-smooth と $mu$-strongly convex 関数の和を最小化する最初の分散化、高速化、非同期化、プライマリ化、一階述語アルゴリズムである。
我々のアルゴリズムは、$mathcalO(nsqrtchisqrtfracLmulog(frac1epsilon)$ localと$mathcalO(nsqrtchisqrtfracLmulog()のみを必要とすることを示す。
論文 参考訳(メタデータ) (2022-07-26T08:47:54Z) - Locally Asynchronous Stochastic Gradient Descent for Decentralised Deep
Learning [0.0]
Local Asynchronous SGD (LASGD) は、モデル同期にAll Reduceに依存する非同期分散アルゴリズムである。
ImageNetデータセット上の画像分類タスクにおいて、LASGDの性能を実証的に検証する。
論文 参考訳(メタデータ) (2022-03-24T14:25:15Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Acceleration in Distributed Optimization Under Similarity [72.54787082152278]
集中ノードを持たないエージェントネットワーク上での分散(強い凸)最適化問題について検討する。
$varepsilon$-solutionは$tildemathcalrhoObig(sqrtfracbeta/mu (1-)log1/varepsilonbig)$通信ステップ数で達成される。
この速度は、関心のクラスに適用される分散ゴシップ-アルゴリズムの、初めて(ポリログ因子まで)より低い複雑性の通信境界と一致する。
論文 参考訳(メタデータ) (2021-10-24T04:03:00Z) - A Linearly Convergent Algorithm for Decentralized Optimization: Sending
Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。
ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。
本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-11-03T13:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。