論文の概要: Straggler-Resilient Decentralized Learning via Adaptive Asynchronous
Updates
- arxiv url: http://arxiv.org/abs/2306.06559v1
- Date: Sun, 11 Jun 2023 02:08:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 18:16:53.711665
- Title: Straggler-Resilient Decentralized Learning via Adaptive Asynchronous
Updates
- Title(参考訳): 適応型非同期更新によるストラグラーレジリエント分散学習
- Authors: Guojun Xiong, Gang Yan, Shiqiang Wang, Jian Li
- Abstract要約: 完全に分散化された最適化手法は、人気のあるパラメータサーバフレームワークに代わるものとして提唱されている。
本稿では、各労働者が通信する近隣労働者の数を適応的に決定することで、適応的な非同期更新を施した完全に分散化されたアルゴリズムを提案する。
我々は、DSGD-AAUが収束の線形高速化を達成することを示す(つまり、労働者数に対して収束性能が線形的に増加する)。
- 参考スコア(独自算出の注目度): 12.075207097903203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing demand for large-scale training of machine learning
models, fully decentralized optimization methods have recently been advocated
as alternatives to the popular parameter server framework. In this paradigm,
each worker maintains a local estimate of the optimal parameter vector, and
iteratively updates it by waiting and averaging all estimates obtained from its
neighbors, and then corrects it on the basis of its local dataset. However, the
synchronization phase is sensitive to stragglers. An efficient way to mitigate
this effect is to consider asynchronous updates, where each worker computes
stochastic gradients and communicates with other workers at its own pace.
Unfortunately, fully asynchronous updates suffer from staleness of the
stragglers' parameters. To address these limitations, we propose a fully
decentralized algorithm DSGD-AAU with adaptive asynchronous updates via
adaptively determining the number of neighbor workers for each worker to
communicate with. We show that DSGD-AAU achieves a linear speedup for
convergence (i.e., convergence performance increases linearly with respect to
the number of workers). Experimental results on a suite of datasets and deep
neural network models are provided to verify our theoretical results.
- Abstract(参考訳): 機械学習モデルの大規模トレーニングの需要が高まる中、一般的なパラメータサーバフレームワークに代わるものとして、完全に分散化された最適化手法が最近提案されている。
このパラダイムでは、各ワーカーは最適なパラメータベクトルの局所的な推定を維持し、隣人から得られたすべての推定を待機して平均化することで反復的に更新し、そのローカルデータセットに基づいて修正する。
しかし、同期相はストラグラーに敏感である。
この効果を緩和する効果的な方法は、各ワーカーが確率的勾配を計算し、他のワーカーと自身のペースで通信する非同期更新を検討することである。
残念ながら、完全に非同期な更新はストラグラーのパラメータが停滞する。
これらの制約に対処するため、各労働者が通信する近隣労働者の数を適応的に決定し、適応的な非同期更新を行う完全分散アルゴリズムDSGD-AAUを提案する。
DSGD-AAUは収束の線形スピードアップを達成する(つまり、労働者数に対して収束性能が直線的に増加する)。
理論的な結果を検証するために,データセット群とディープニューラルネットワークモデルに関する実験結果が提供される。
関連論文リスト
- Asynchronous Local-SGD Training for Language Modeling [38.61892210645179]
局所勾配降下(Local-SGD)は、各デバイスが通信毎に複数のSGD更新を行う分散最適化のアプローチである。
この研究は、言語モデルをトレーニングするための非同期ローカル-SGDについて実証的研究を行い、SGDのステップが完了した直後に、各ワーカーがグローバルパラメータを更新する。
論文 参考訳(メタデータ) (2024-01-17T11:17:04Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Asynchronous Decentralized Bayesian Optimization for Large Scale
Hyperparameter Optimization [13.89136187674851]
BOでは、パラメータ構成と性能の関係を学習するために、計算的に安価にサロゲートモデルを用いる。
本稿では非同期分散BOを提案する。各ワーカーがシーケンシャルBOを実行し、その結果を共有ストレージを介して非同期に通信する。
計算効率を損なうことなく,作業者の95%以上を並列作業者1,920名に拡張する。
論文 参考訳(メタデータ) (2022-07-01T15:07:56Z) - AsyncFedED: Asynchronous Federated Learning with Euclidean Distance
based Adaptive Weight Aggregation [17.57059932879715]
非同期学習フレームワークでは、サーバがクライアントから更新を受けると、すべての更新が設定通りに到着するのを待つのではなく、グローバルモデルを更新する。
AsyncFedEDと呼ばれる適応重み付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-27T07:18:11Z) - Straggler-Resilient Distributed Machine Learning with Dynamic Backup
Workers [9.919012793724628]
作業者毎のバックアップ作業者数を決定するための完全分散アルゴリズムを提案する。
我々のアルゴリズムは収束の線形スピードアップを達成する(すなわち、労働者数に対して収束性能が線形に増加する)。
論文 参考訳(メタデータ) (2021-02-11T21:39:53Z) - Straggler-Resilient Federated Learning: Leveraging the Interplay Between
Statistical Accuracy and System Heterogeneity [57.275753974812666]
フェデレーション学習は、データをローカルに保持しながら、クライアントのネットワークに分散したデータサンプルから学習する。
本稿では,学習手順を高速化するために,クライアントデータの統計的特徴を取り入れてクライアントを適応的に選択する,ストラグラー・レジリエントなフェデレーション学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-28T19:21:14Z) - Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。
具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-26T14:55:31Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。