論文の概要: Straggler-Resilient Distributed Machine Learning with Dynamic Backup
Workers
- arxiv url: http://arxiv.org/abs/2102.06280v1
- Date: Thu, 11 Feb 2021 21:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 13:14:58.373787
- Title: Straggler-Resilient Distributed Machine Learning with Dynamic Backup
Workers
- Title(参考訳): 動的バックアップワーカーによるストラグラー・レジリエンスな分散機械学習
- Authors: Guojun Xiong, Gang Yan, Rahul Singh, Jian Li
- Abstract要約: 作業者毎のバックアップ作業者数を決定するための完全分散アルゴリズムを提案する。
我々のアルゴリズムは収束の線形スピードアップを達成する(すなわち、労働者数に対して収束性能が線形に増加する)。
- 参考スコア(独自算出の注目度): 9.919012793724628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing demand for large-scale training of machine learning
models, consensus-based distributed optimization methods have recently been
advocated as alternatives to the popular parameter server framework. In this
paradigm, each worker maintains a local estimate of the optimal parameter
vector, and iteratively updates it by waiting and averaging all estimates
obtained from its neighbors, and then corrects it on the basis of its local
dataset. However, the synchronization phase can be time consuming due to the
need to wait for \textit{stragglers}, i.e., slower workers. An efficient way to
mitigate this effect is to let each worker wait only for updates from the
fastest neighbors before updating its local parameter. The remaining neighbors
are called \textit{backup workers.} To minimize the globally training time over
the network, we propose a fully distributed algorithm to dynamically determine
the number of backup workers for each worker. We show that our algorithm
achieves a linear speedup for convergence (i.e., convergence performance
increases linearly with respect to the number of workers). We conduct extensive
experiments on MNIST and CIFAR-10 to verify our theoretical results.
- Abstract(参考訳): 機械学習モデルの大規模トレーニングの需要が高まる中、コンセンサスベースの分散最適化メソッドは最近、人気のあるパラメータサーバフレームワークに代わるものとして提唱されている。
このパラダイムでは、各作業員が最適なパラメータベクトルの局所推定を維持し、隣人から得られたすべての推定を待ち、平均して反復的に更新し、そのローカルデータセットに基づいて修正します。
しかし、同期フェーズは \textit{stragglers}、すなわち遅いワーカを待つ必要があるため、時間がかかる可能性がある。
この効果を緩和するための効率的な方法は、各ワーカーがローカルパラメータを更新する前に、最速の隣人からの更新だけを待たせることです。
残りの隣人は \textit{backup workers} と呼ばれる。
ネットワーク上でのトレーニング時間を最小化するために,作業者毎のバックアップ作業員数を動的に決定する完全分散アルゴリズムを提案する。
本アルゴリズムは,収束の線形速度アップ(つまり,作業者数に対して収束性能が線形に増加する)を達成することを示す。
我々は、MNISTとCIFAR-10の広範な実験を行い、理論結果を検証する。
関連論文リスト
- DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Timely Asynchronous Hierarchical Federated Learning: Age of Convergence [59.96266198512243]
クライアント-エッジ-クラウドフレームワークを用いた非同期階層型フェデレーション学習環境について検討する。
クライアントはトレーニングされたパラメータをエッジサーバと交換し、ローカルに集約されたモデルを更新する。
各クライアントの目標は、クライアントのタイムラインを維持しながら、グローバルモデルに収束することだ。
論文 参考訳(メタデータ) (2023-06-21T17:39:16Z) - Straggler-Resilient Decentralized Learning via Adaptive Asynchronous Updates [28.813671194939225]
完全に分散化された最適化手法は、人気のあるパラメータサーバフレームワークに代わるものとして提唱されている。
本稿では、各労働者が通信する近隣労働者の数を適応的に決定することで、適応的な非同期更新を施した完全に分散化されたアルゴリズムを提案する。
DSGD-AAUは収束の線形高速化を実現し,その有効性を示す。
論文 参考訳(メタデータ) (2023-06-11T02:08:59Z) - Fast and Straggler-Tolerant Distributed SGD with Reduced Computation
Load [11.069252535469644]
勾配降下(SGD)のような最適化手順は、ストラグラーと呼ばれる非応答性や遅い労働者の影響を軽減するために利用することができる。
これは、ワーカのサブセットがアルゴリズムの各イテレーションで計算を完了するのを待つだけで実現できる。
我々は,アルゴリズムの実行時間を通じて,作業者数と計算負荷の両方を適応させる新しいスキームを構築した。
論文 参考訳(メタデータ) (2023-04-17T20:12:18Z) - STSyn: Speeding Up Local SGD with Straggler-Tolerant Synchronization [14.526055067546507]
ローカル同期は、作業者が同じローカル更新を完了するのを待つため、遅くてトラグラーな作業員のために、ランダムな遅延をアイドルしている作業員に悩まされる。
本稿では,トラグラーを緩和し,通信効率を向上させるため,STSynと呼ばれる新しいローカルSGDシステム戦略を開発した。
論文 参考訳(メタデータ) (2022-10-06T08:04:20Z) - Acceleration of Federated Learning with Alleviated Forgetting in Local
Training [61.231021417674235]
フェデレートラーニング(FL)は、プライバシを保護しながら機械学習モデルの分散最適化を可能にする。
我々は,FedRegを提案する。FedRegは,局所的な訓練段階において,知識を忘れることなくFLを加速するアルゴリズムである。
我々の実験は、FedRegはFLの収束率を著しく改善するだけでなく、特にニューラルネットワークアーキテクチャが深い場合にも改善することを示した。
論文 参考訳(メタデータ) (2022-03-05T02:31:32Z) - Faster Non-Convex Federated Learning via Global and Local Momentum [57.52663209739171]
textttFedGLOMOは最初の(一階)FLtexttFedGLOMOアルゴリズムです。
クライアントとサーバ間の通信においても,我々のアルゴリズムは確実に最適である。
論文 参考訳(メタデータ) (2020-12-07T21:05:31Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Dynamic backup workers for parallel machine learning [10.813576865492767]
本稿では,トレーニングプロセス中のバックアップ作業者の数を動的に決定し,各イテレーションにおける収束速度を最大化するアルゴリズムを提案する。
実験の結果,DBW 1) は予備的な時間消費実験により$b$ のチューニングの必要性を排除し,2) 最適な静的構成よりも3$ のトレーニングを高速にすることがわかった。
論文 参考訳(メタデータ) (2020-04-30T11:25:00Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。