Fugu-MT 論文翻訳(概要): $\textbf{A}^2\textbf{CiD}^2$: Accelerating Asynchronous Communication in Decentralized Deep Learning

論文の概要: $\textbf{A}^2\textbf{CiD}^2$: Accelerating Asynchronous Communication in Decentralized Deep Learning

arxiv url: http://arxiv.org/abs/2306.08289v2
Date: Wed, 6 Dec 2023 07:48:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 18:49:48.414122
Title: $\textbf{A}^2\textbf{CiD}^2$: Accelerating Asynchronous Communication in Decentralized Deep Learning
Title（参考訳）: $\textbf{A}^2\textbf{CiD}^2$:分散ディープラーニングにおける非同期通信の高速化
Authors: Adel Nabli (MLIA, Mila), Eugene Belilovsky (Mila), Edouard Oyallon (MLIA)
Abstract要約: このアルゴリズムは、$textbfA2textbfCiD2$という連続的な局所運動量のおかげで動作する。我々の理論解析は、以前の非同期分散ベースラインと比較して加速速度を証明している。我々は、最大64の非同期ワーカーを使用して、ImageNetデータセットに一貫した改善を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Distributed training of Deep Learning models has been critical to many recent successes in the field. Current standard methods primarily rely on synchronous centralized algorithms which induce major communication bottlenecks and synchronization locks at scale. Decentralized asynchronous algorithms are emerging as a potential alternative but their practical applicability still lags. In order to mitigate the increase in communication cost that naturally comes with scaling the number of workers, we introduce a principled asynchronous, randomized, gossip-based optimization algorithm which works thanks to a continuous local momentum named $\textbf{A}^2\textbf{CiD}^2$. Our method allows each worker to continuously process mini-batches without stopping, and run a peer-to-peer averaging routine in parallel, reducing idle time. In addition to inducing a significant communication acceleration at no cost other than adding a local momentum variable, minimal adaptation is required to incorporate $\textbf{A}^2\textbf{CiD}^2$ to standard asynchronous approaches. Our theoretical analysis proves accelerated rates compared to previous asynchronous decentralized baselines and we empirically show that using our $\textbf{A}^2\textbf{CiD}^2$ momentum significantly decrease communication costs in poorly connected networks. In particular, we show consistent improvement on the ImageNet dataset using up to 64 asynchronous workers (A100 GPUs) and various communication network topologies.
Abstract（参考訳）: ディープラーニングモデルの分散トレーニングは、この分野における多くの成功に不可欠である。現在の標準手法は主に同期集中型アルゴリズムに依存しており、大規模な通信ボトルネックや同期ロックを引き起こす。分散非同期アルゴリズムは潜在的な代替手段として登場しているが、実用性はまだ遅れている。作業者数の増加に伴う通信コストの増大を緩和するために,規則付き非同期,ランダム化,ゴシップに基づく最適化アルゴリズムを導入して,$\textbf{a}^2\textbf{cid}^2$ という連続的な局所運動量を活用する。本手法では,各作業者が停止することなく連続的にミニバッチを処理し,ピアツーピア平均化ルーチンを並列に実行し,アイドル時間を短縮する。局所運動量変数の追加以外のコストなしで重要な通信加速を誘導するのに加えて、標準非同期アプローチに$\textbf{a}^2\textbf{cid}^2$を組み込むために最小限の適応が必要である。我々の理論解析は、以前の非同期分散ベースラインと比較して加速速度を証明し、我々の$\textbf{A}^2\textbf{CiD}^2$運動量を用いることで、低接続ネットワークにおける通信コストを著しく減少させることを示した。特に,最大64個の非同期ワーカ(a100 gpu)と各種通信ネットワークトポロジを用いたimagenetデータセットの一貫性向上を示す。

関連論文リスト

ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training [16.560270624096706]
大規模言語モデルの分散学習に適したメモリ効率最適化アルゴリズムを提案する。本手法は、勾配計算と通信の並列実行に固有の1ステップ遅れを軽減する新しい手法に依存する。
論文参考訳（メタデータ） (2024-06-03T08:23:45Z)
Shadowheart SGD: Distributed Asynchronous SGD with Optimal Time Complexity Under Arbitrary Computation and Communication Heterogeneity [85.92481138826949]
我々は,従来の集中型手法の時間的複雑さを確実に改善する新しい手法であるShadowheart SGDを開発した。また、サーバからワーカーへのブロードキャストが無視できない双方向設定も検討し、対応する方法を開発した。
論文参考訳（メタデータ） (2024-02-07T12:15:56Z)
Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文参考訳（メタデータ） (2024-01-03T13:07:07Z)
Communication-Efficient Decentralized Federated Learning via One-Bit Compressive Sensing [52.402550431781805]
分散連合学習(DFL)は、様々なアプリケーションにまたがる実用性によって人気を博している。集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのはより難しい。我々は,iADM (iexact alternating direction method) の枠組みに基づく新しいアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-08-31T12:22:40Z)
Accelerating Distributed ML Training via Selective Synchronization [0.0]
textttSelSyncは、DNNトレーニングの実践的で低オーバーヘッドな方法であり、各ステップでコミュニケーションを発生または回避することを動的に選択する。トレーニング時間を最大14$times$まで短縮しながら,BSPと同等あるいはより優れた精度に収束する。
論文参考訳（メタデータ） (2023-07-16T05:28:59Z)
SWIFT: Rapid Decentralized Federated Learning via Wait-Free Model Communication [11.763368822546468]
SWIFTはその待ち時間構造のため,実行時間に対してより高速に収束することを示す。 SWIFTは、画像分類、ID、非IIDデータ設定の損失レベルを生成し、既存のSOTAアルゴリズムよりも50%高速である。
論文参考訳（メタデータ） (2022-10-25T14:01:21Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
DADAO: Decoupled Accelerated Decentralized Asynchronous Optimization [0.0]
DADAOは、L$-smooth と $mu$-strongly convex 関数の和を最小化する最初の分散化、高速化、非同期化、プライマリ化、一階述語アルゴリズムである。我々のアルゴリズムは、$mathcalO(nsqrtchisqrtfracLmulog(frac1epsilon)$ localと$mathcalO(nsqrtchisqrtfracLmulog()のみを必要とすることを示す。
論文参考訳（メタデータ） (2022-07-26T08:47:54Z)
Locally Asynchronous Stochastic Gradient Descent for Decentralised Deep Learning [0.0]
Local Asynchronous SGD (LASGD) は、モデル同期にAll Reduceに依存する非同期分散アルゴリズムである。 ImageNetデータセット上の画像分類タスクにおいて、LASGDの性能を実証的に検証する。
論文参考訳（メタデータ） (2022-03-24T14:25:15Z)
Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文参考訳（メタデータ） (2022-02-07T15:04:15Z)
Acceleration in Distributed Optimization Under Similarity [72.54787082152278]
集中ノードを持たないエージェントネットワーク上での分散(強い凸)最適化問題について検討する。 $varepsilon$-solutionは$tildemathcalrhoObig(sqrtfracbeta/mu (1-)log1/varepsilonbig)$通信ステップ数で達成される。この速度は、関心のクラスに適用される分散ゴシップ-アルゴリズムの、初めて(ポリログ因子まで)より低い複雑性の通信境界と一致する。
論文参考訳（メタデータ） (2021-10-24T04:03:00Z)
A Linearly Convergent Algorithm for Decentralized Optimization: Sending Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文参考訳（メタデータ） (2020-11-03T13:35:53Z)
Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文参考訳（メタデータ） (2020-10-02T10:41:59Z)
A Low Complexity Decentralized Neural Net with Centralized Equivalence using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文参考訳（メタデータ） (2020-09-29T13:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。