論文の概要: Straggler-Resilient Decentralized Learning via Adaptive Asynchronous Updates
- arxiv url: http://arxiv.org/abs/2306.06559v2
- Date: Tue, 9 Jul 2024 01:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 00:40:48.406281
- Title: Straggler-Resilient Decentralized Learning via Adaptive Asynchronous Updates
- Title(参考訳): 適応的非同期更新によるストラグラー・レジリエントな分散学習
- Authors: Guojun Xiong, Gang Yan, Shiqiang Wang, Jian Li,
- Abstract要約: 完全に分散化された最適化手法は、人気のあるパラメータサーバフレームワークに代わるものとして提唱されている。
本稿では、各労働者が通信する近隣労働者の数を適応的に決定することで、適応的な非同期更新を施した完全に分散化されたアルゴリズムを提案する。
DSGD-AAUは収束の線形高速化を実現し,その有効性を示す。
- 参考スコア(独自算出の注目度): 28.813671194939225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing demand for large-scale training of machine learning models, fully decentralized optimization methods have recently been advocated as alternatives to the popular parameter server framework. In this paradigm, each worker maintains a local estimate of the optimal parameter vector, and iteratively updates it by waiting and averaging all estimates obtained from its neighbors, and then corrects it on the basis of its local dataset. However, the synchronization phase is sensitive to stragglers. An efficient way to mitigate this effect is to consider asynchronous updates, where each worker computes stochastic gradients and communicates with other workers at its own pace. Unfortunately, fully asynchronous updates suffer from staleness of stragglers' parameters. To address these limitations, we propose a fully decentralized algorithm DSGD-AAU with adaptive asynchronous updates via adaptively determining the number of neighbor workers for each worker to communicate with. We show that DSGD-AAU achieves a linear speedup for convergence and demonstrate its effectiveness via extensive experiments.
- Abstract(参考訳): 機械学習モデルの大規模なトレーニングの需要が高まっているため、完全に分散化された最適化手法が、最近、人気のあるパラメータサーバフレームワークの代替手段として提唱されている。
このパラダイムでは、各ワーカーは最適なパラメータベクトルの局所的な見積を保持し、隣人から得られたすべての見積もりを待機して平均化することで反復的に更新し、そのローカルデータセットに基づいて修正する。
しかし、同期相はストラグラーに敏感である。
この効果を緩和する効果的な方法は、各ワーカーが確率的勾配を計算し、他のワーカーと自身のペースで通信する非同期更新を検討することである。
残念ながら、完全な非同期更新はストラグラーのパラメータの不安定さに悩まされている。
これらの制約に対処するため、各労働者が通信する近隣労働者の数を適応的に決定し、適応的な非同期更新を施した完全分散アルゴリズムDSGD-AAUを提案する。
DSGD-AAUは収束の線形高速化を実現し,その有効性を示す。
関連論文リスト
- PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - Asynchronous Federated Stochastic Optimization for Heterogeneous Objectives Under Arbitrary Delays [0.0]
フェデレートラーニング(FL)は、データを複数の場所に保持するモデル("clients")をセキュアにトレーニングするために提案されている。
FLアルゴリズムの性能を阻害する2つの大きな課題は、階層化クライアントによって引き起こされる長いトレーニング時間と、非イドローカルなデータ分布("client drift")によるモデル精度の低下である。
本稿では,Asynchronous Exact Averaging (AREA, Asynchronous Exact Averaging) を提案する。Asynchronous Exact Averaging (AREA) は,通信を利用して収束を高速化し,拡張性を向上し,クライアント更新頻度の変動によるクライアントのドリフトの補正にクライアントメモリを利用する。
論文 参考訳(メタデータ) (2024-05-16T14:22:49Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Asynchronous Local-SGD Training for Language Modeling [37.02427878640653]
局所勾配降下(Local-SGD)は、各デバイスが通信毎に複数のSGD更新を行う分散最適化のアプローチである。
この研究は、言語モデルをトレーニングするための非同期ローカル-SGDについて実証的研究を行い、SGDのステップが完了した直後に、各ワーカーがグローバルパラメータを更新する。
論文 参考訳(メタデータ) (2024-01-17T11:17:04Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - STSyn: Speeding Up Local SGD with Straggler-Tolerant Synchronization [14.526055067546507]
ローカル同期は、作業者が同じローカル更新を完了するのを待つため、遅くてトラグラーな作業員のために、ランダムな遅延をアイドルしている作業員に悩まされる。
本稿では,トラグラーを緩和し,通信効率を向上させるため,STSynと呼ばれる新しいローカルSGDシステム戦略を開発した。
論文 参考訳(メタデータ) (2022-10-06T08:04:20Z) - AsyncFedED: Asynchronous Federated Learning with Euclidean Distance
based Adaptive Weight Aggregation [17.57059932879715]
非同期学習フレームワークでは、サーバがクライアントから更新を受けると、すべての更新が設定通りに到着するのを待つのではなく、グローバルモデルを更新する。
AsyncFedEDと呼ばれる適応重み付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-27T07:18:11Z) - Straggler-Resilient Distributed Machine Learning with Dynamic Backup
Workers [9.919012793724628]
作業者毎のバックアップ作業者数を決定するための完全分散アルゴリズムを提案する。
我々のアルゴリズムは収束の線形スピードアップを達成する(すなわち、労働者数に対して収束性能が線形に増加する)。
論文 参考訳(メタデータ) (2021-02-11T21:39:53Z) - Straggler-Resilient Federated Learning: Leveraging the Interplay Between
Statistical Accuracy and System Heterogeneity [57.275753974812666]
フェデレーション学習は、データをローカルに保持しながら、クライアントのネットワークに分散したデータサンプルから学習する。
本稿では,学習手順を高速化するために,クライアントデータの統計的特徴を取り入れてクライアントを適応的に選択する,ストラグラー・レジリエントなフェデレーション学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-28T19:21:14Z) - An Efficient Asynchronous Method for Integrating Evolutionary and
Gradient-based Policy Search [76.73477450555046]
本稿では、ESの並列効率を最大化し、ポリシー勾配法と統合する非同期進化戦略強化学習(AES-RL)を提案する。
具体的には、(1)ESとDRLを非同期にマージする新しいフレームワークを提案し、2)非同期、ES、DRLのすべての利点を利用できる様々な非同期更新方法を提案する。
論文 参考訳(メタデータ) (2020-12-10T02:30:48Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。