論文の概要: $\textbf{A}^2\textbf{CiD}^2$: Accelerating Asynchronous Communication in
Decentralized Deep Learning
- arxiv url: http://arxiv.org/abs/2306.08289v2
- Date: Wed, 6 Dec 2023 07:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 18:49:48.414122
- Title: $\textbf{A}^2\textbf{CiD}^2$: Accelerating Asynchronous Communication in
Decentralized Deep Learning
- Title(参考訳): $\textbf{A}^2\textbf{CiD}^2$:分散ディープラーニングにおける非同期通信の高速化
- Authors: Adel Nabli (MLIA, Mila), Eugene Belilovsky (Mila), Edouard Oyallon
(MLIA)
- Abstract要約: このアルゴリズムは、$textbfA2textbfCiD2$という連続的な局所運動量のおかげで動作する。
我々の理論解析は、以前の非同期分散ベースラインと比較して加速速度を証明している。
我々は、最大64の非同期ワーカーを使用して、ImageNetデータセットに一貫した改善を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed training of Deep Learning models has been critical to many recent
successes in the field. Current standard methods primarily rely on synchronous
centralized algorithms which induce major communication bottlenecks and
synchronization locks at scale. Decentralized asynchronous algorithms are
emerging as a potential alternative but their practical applicability still
lags. In order to mitigate the increase in communication cost that naturally
comes with scaling the number of workers, we introduce a principled
asynchronous, randomized, gossip-based optimization algorithm which works
thanks to a continuous local momentum named $\textbf{A}^2\textbf{CiD}^2$. Our
method allows each worker to continuously process mini-batches without
stopping, and run a peer-to-peer averaging routine in parallel, reducing idle
time. In addition to inducing a significant communication acceleration at no
cost other than adding a local momentum variable, minimal adaptation is
required to incorporate $\textbf{A}^2\textbf{CiD}^2$ to standard asynchronous
approaches. Our theoretical analysis proves accelerated rates compared to
previous asynchronous decentralized baselines and we empirically show that
using our $\textbf{A}^2\textbf{CiD}^2$ momentum significantly decrease
communication costs in poorly connected networks. In particular, we show
consistent improvement on the ImageNet dataset using up to 64 asynchronous
workers (A100 GPUs) and various communication network topologies.
- Abstract(参考訳): ディープラーニングモデルの分散トレーニングは、この分野における多くの成功に不可欠である。
現在の標準手法は主に同期集中型アルゴリズムに依存しており、大規模な通信ボトルネックや同期ロックを引き起こす。
分散非同期アルゴリズムは潜在的な代替手段として登場しているが、実用性はまだ遅れている。
作業者数の増加に伴う通信コストの増大を緩和するために,規則付き非同期,ランダム化,ゴシップに基づく最適化アルゴリズムを導入して,$\textbf{a}^2\textbf{cid}^2$ という連続的な局所運動量を活用する。
本手法では,各作業者が停止することなく連続的にミニバッチを処理し,ピアツーピア平均化ルーチンを並列に実行し,アイドル時間を短縮する。
局所運動量変数の追加以外のコストなしで重要な通信加速を誘導するのに加えて、標準非同期アプローチに$\textbf{a}^2\textbf{cid}^2$を組み込むために最小限の適応が必要である。
我々の理論解析は、以前の非同期分散ベースラインと比較して加速速度を証明し、我々の$\textbf{A}^2\textbf{CiD}^2$運動量を用いることで、低接続ネットワークにおける通信コストを著しく減少させることを示した。
特に,最大64個の非同期ワーカ(a100 gpu)と各種通信ネットワークトポロジを用いたimagenetデータセットの一貫性向上を示す。
関連論文リスト
- ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training [16.560270624096706]
大規模言語モデルの分散学習に適したメモリ効率最適化アルゴリズムを提案する。
本手法は、勾配計算と通信の並列実行に固有の1ステップ遅れを軽減する新しい手法に依存する。
論文 参考訳(メタデータ) (2024-06-03T08:23:45Z) - Shadowheart SGD: Distributed Asynchronous SGD with Optimal Time Complexity Under Arbitrary Computation and Communication Heterogeneity [85.92481138826949]
我々は,従来の集中型手法の時間的複雑さを確実に改善する新しい手法であるShadowheart SGDを開発した。
また、サーバからワーカーへのブロードキャストが無視できない双方向設定も検討し、対応する方法を開発した。
論文 参考訳(メタデータ) (2024-02-07T12:15:56Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - Communication-Efficient Decentralized Federated Learning via One-Bit
Compressive Sensing [52.402550431781805]
分散連合学習(DFL)は、様々なアプリケーションにまたがる実用性によって人気を博している。
集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのはより難しい。
我々は,iADM (iexact alternating direction method) の枠組みに基づく新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-08-31T12:22:40Z) - Accelerating Distributed ML Training via Selective Synchronization [0.0]
textttSelSyncは、DNNトレーニングの実践的で低オーバーヘッドな方法であり、各ステップでコミュニケーションを発生または回避することを動的に選択する。
トレーニング時間を最大14$times$まで短縮しながら,BSPと同等あるいはより優れた精度に収束する。
論文 参考訳(メタデータ) (2023-07-16T05:28:59Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - DADAO: Decoupled Accelerated Decentralized Asynchronous Optimization [0.0]
DADAOは、L$-smooth と $mu$-strongly convex 関数の和を最小化する最初の分散化、高速化、非同期化、プライマリ化、一階述語アルゴリズムである。
我々のアルゴリズムは、$mathcalO(nsqrtchisqrtfracLmulog(frac1epsilon)$ localと$mathcalO(nsqrtchisqrtfracLmulog()のみを必要とすることを示す。
論文 参考訳(メタデータ) (2022-07-26T08:47:54Z) - Locally Asynchronous Stochastic Gradient Descent for Decentralised Deep
Learning [0.0]
Local Asynchronous SGD (LASGD) は、モデル同期にAll Reduceに依存する非同期分散アルゴリズムである。
ImageNetデータセット上の画像分類タスクにおいて、LASGDの性能を実証的に検証する。
論文 参考訳(メタデータ) (2022-03-24T14:25:15Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Acceleration in Distributed Optimization Under Similarity [72.54787082152278]
集中ノードを持たないエージェントネットワーク上での分散(強い凸)最適化問題について検討する。
$varepsilon$-solutionは$tildemathcalrhoObig(sqrtfracbeta/mu (1-)log1/varepsilonbig)$通信ステップ数で達成される。
この速度は、関心のクラスに適用される分散ゴシップ-アルゴリズムの、初めて(ポリログ因子まで)より低い複雑性の通信境界と一致する。
論文 参考訳(メタデータ) (2021-10-24T04:03:00Z) - A Linearly Convergent Algorithm for Decentralized Optimization: Sending
Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。
ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。
本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-11-03T13:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。