論文の概要: Boosting Asynchronous Decentralized Learning with Model Fragmentation
- arxiv url: http://arxiv.org/abs/2410.12918v1
- Date: Wed, 16 Oct 2024 18:03:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:18:43.877118
- Title: Boosting Asynchronous Decentralized Learning with Model Fragmentation
- Title(参考訳): モデルフラグメンテーションによる非同期分散学習の促進
- Authors: Sayan Biswas, Anne-Marie Kermarrec, Alexis Marouani, Rafael Pires, Rishi Sharma, Martijn De Vos,
- Abstract要約: DivShareは通信ストラグラーの存在下で高速なモデル収束を実現する新しいDLアルゴリズムである。
我々はDivShareを、AD-PSGDとSwiftの2つの最先端DLベースラインに対して実験的に評価した。
CIFAR-10データセットのAD-PSGDと比較して、通信ストラグラーを持つDivShareは、時間と精度を最大3.9倍下げることがわかった。
- 参考スコア(独自算出の注目度): 1.6053176639259055
- License:
- Abstract: Decentralized learning (DL) is an emerging technique that allows nodes on the web to collaboratively train machine learning models without sharing raw data. Dealing with stragglers, i.e., nodes with slower compute or communication than others, is a key challenge in DL. We present DivShare, a novel asynchronous DL algorithm that achieves fast model convergence in the presence of communication stragglers. DivShare achieves this by having nodes fragment their models into parameter subsets and send, in parallel to computation, each subset to a random sample of other nodes instead of sequentially exchanging full models. The transfer of smaller fragments allows more efficient usage of the collective bandwidth and enables nodes with slow network links to quickly contribute with at least some of their model parameters. By theoretically proving the convergence of DivShare, we provide, to the best of our knowledge, the first formal proof of convergence for a DL algorithm that accounts for the effects of asynchronous communication with delays. We experimentally evaluate DivShare against two state-of-the-art DL baselines, AD-PSGD and Swift, and with two standard datasets, CIFAR-10 and MovieLens. We find that DivShare with communication stragglers lowers time-to-accuracy by up to 3.9x compared to AD-PSGD on the CIFAR-10 dataset. Compared to baselines, DivShare also achieves up to 19.4% better accuracy and 9.5% lower test loss on the CIFAR-10 and MovieLens datasets, respectively.
- Abstract(参考訳): 分散学習(DL)は、Web上のノードが生データを共有せずに機械学習モデルを協調的にトレーニングすることを可能にする新興技術である。
トラグラー(例えば、他のノードよりも計算や通信が遅いノード)とのディーリングは、DLの重要な課題である。
通信ストラグラーの存在下で高速なモデル収束を実現する新しい非同期DLアルゴリズムであるDivShareを提案する。
DivShareは、ノードがモデルをパラメータサブセットに断片化して、計算と並行して、各サブセットを、完全なモデルを逐次的に交換する代わりに、他のノードのランダムなサンプルに送信することで、これを実現する。
より小さなフラグメントの転送は、より効率的な集合帯域幅の利用を可能にし、ネットワークリンクの遅いノードが、少なくともいくつかのモデルパラメータに迅速に寄与できるようにする。
理論的にDivShareの収束を証明することによって、私たちの知る限り、遅延による非同期通信の影響を考慮に入れたDLアルゴリズムの収束の最初の公式な証明となる。
我々はDivShareを、AD-PSGDとSwiftの2つの最先端DLベースラインと、CIFAR-10とMovieLensの2つの標準データセットに対して実験的に評価した。
CIFAR-10データセットのAD-PSGDと比較して、通信ストラグラーを持つDivShareは、時間と精度を最大3.9倍下げることがわかった。
ベースラインと比較して、DivShareはCIFAR-10データセットとMovieLensデータセットでそれぞれ19.4%の精度と9.5%の低いテスト損失を達成している。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Communication-Efficient Distributed Deep Learning via Federated Dynamic Averaging [1.4748100900619232]
Federated Dynamic Averaging (FDA)は通信効率の良いDDL戦略である。
FDAは従来のアルゴリズムと最先端のアルゴリズムと比較して、通信コストを桁違いに削減している。
論文 参考訳(メタデータ) (2024-05-31T16:34:11Z) - Communication-Efficient Decentralized Federated Learning via One-Bit
Compressive Sensing [52.402550431781805]
分散連合学習(DFL)は、様々なアプリケーションにまたがる実用性によって人気を博している。
集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのはより難しい。
我々は,iADM (iexact alternating direction method) の枠組みに基づく新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-08-31T12:22:40Z) - OSP: Boosting Distributed Model Training with 2-stage Synchronization [24.702780532364056]
オーバーラップ並列化(OSP)と呼ばれる新しいモデル同期手法を提案する。
OSPは2段階同期方式で効率的な通信を実現し、Local-Gradientベースを使用する。
古いパラメータによる精度損失を避けるための修正(LGP)。
その結果、OSPは、一般的な同期モデルと比較して、精度を損なうことなく、最大50%のスループット向上を達成できることがわかった。
論文 参考訳(メタデータ) (2023-06-29T13:24:12Z) - Communication-Efficient Federated Learning With Data and Client
Heterogeneity [22.432529149142976]
Federated Learning (FL)は、機械学習モデルの大規模分散トレーニングを可能にする。
FLを大規模に実行するには、本質的に実践的な課題が伴う。
従来のフェデレーション平均化(FedAvg)アルゴリズムの最初の変種を示す。
論文 参考訳(メタデータ) (2022-06-20T22:39:39Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Two-Bit Aggregation for Communication Efficient and Differentially
Private Federated Learning [79.66767935077925]
フェデレートラーニング(FL)では、機械学習モデルは、データをローカルに保ち、他のノードと共有しない状態で、複数のノードで分散的にトレーニングされる。
ノードからサーバに送信された情報は、各ノードのローカルデータの詳細を明らかにする可能性があるため、プライバシー上の懸念が生じる。
差分プライバシーを保証し、アップリンク通信オーバーヘッドを低減した2ビットアグリゲーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-06T19:03:58Z) - Federated Action Recognition on Heterogeneous Embedded Devices [16.88104153104136]
本研究では,限られた計算能力を持つクライアントが行動認識を行うことを可能にする。
我々はまず,大規模なデータセットの知識蒸留を通じて,中央サーバでモデル圧縮を行う。
より小さなデータセットに存在する限られたデータは、アクション認識モデルが複雑な時間的特徴を学習するのに十分なものではないため、微調整が必要である。
論文 参考訳(メタデータ) (2021-07-18T02:33:24Z) - Sparse-Push: Communication- & Energy-Efficient Decentralized Distributed
Learning over Directed & Time-Varying Graphs with non-IID Datasets [2.518955020930418]
Sparse-Pushはコミュニケーション効率の高い分散型トレーニングアルゴリズムである。
提案アルゴリズムは,通信性能がわずか1%の466倍の低減を実現する。
非IIDデータセットのケースにおいて,通信圧縮が性能を著しく低下させることを示す。
論文 参考訳(メタデータ) (2021-02-10T19:41:11Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。