論文の概要: Adaptive Worker Grouping For Communication-Efficient and
Straggler-Tolerant Distributed SGD
- arxiv url: http://arxiv.org/abs/2201.04301v1
- Date: Wed, 12 Jan 2022 05:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-13 15:17:53.493546
- Title: Adaptive Worker Grouping For Communication-Efficient and
Straggler-Tolerant Distributed SGD
- Title(参考訳): 通信効率およびストラグラー耐性分散sgdのための適応ワーカーグルーピング
- Authors: Feng Zhu, Jingjing Zhang, Osvaldo Simeone and Xin Wang
- Abstract要約: 近年,作業者の適応選択による通信負荷軽減手法として,通信適応分散Adam (CADA) が提案されている。
本稿では,グループ化方式のCADA (G-CADA) を提案する。この方式は,通信負荷を低減する上でのCADAの利点を保ちつつ,作業者への追加ストレージのコストでトラグラーのロバスト性を高める。
- 参考スコア(独自算出の注目度): 40.1766215757758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wall-clock convergence time and communication load are key performance
metrics for the distributed implementation of stochastic gradient descent (SGD)
in parameter server settings. Communication-adaptive distributed Adam (CADA)
has been recently proposed as a way to reduce communication load via the
adaptive selection of workers. CADA is subject to performance degradation in
terms of wall-clock convergence time in the presence of stragglers. This paper
proposes a novel scheme named grouping-based CADA (G-CADA) that retains the
advantages of CADA in reducing the communication load, while increasing the
robustness to stragglers at the cost of additional storage at the workers.
G-CADA partitions the workers into groups of workers that are assigned the same
data shards. Groups are scheduled adaptively at each iteration, and the server
only waits for the fastest worker in each selected group. We provide analysis
and experimental results to elaborate the significant gains on the wall-clock
time, as well as communication load and computation load, of G-CADA over other
benchmark schemes.
- Abstract(参考訳): パラメータサーバ設定における確率勾配降下(SGD)の分散実装において,ウォールクロック収束時間と通信負荷が重要なパフォーマンス指標である。
近年,作業者の適応選択による通信負荷軽減手法として,通信適応分散Adam (CADA) が提案されている。
CADAは、ストラグラーの存在下での壁面収束時間において性能劣化する。
本稿では,グループ化方式のCADA (G-CADA) を提案する。この方式は,通信負荷を低減する上でのCADAの利点を保ちつつ,作業者の追加記憶コストを犠牲にしてトラグラーのロバスト性を高める。
G-CADAは、労働者を同じデータシャードを割り当てられた労働者のグループに分割する。
グループは各イテレーションでアダプティブにスケジュールされ、サーバは選択されたグループで最速のワーカーを待つのみである。
本稿では,G-CADAのウォールクロック時間に対する有意な利得と,他のベンチマーク方式に対する通信負荷と計算負荷について解析および実験を行った。
関連論文リスト
- DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Asynchronous Local-SGD Training for Language Modeling [37.02427878640653]
局所勾配降下(Local-SGD)は、各デバイスが通信毎に複数のSGD更新を行う分散最適化のアプローチである。
この研究は、言語モデルをトレーニングするための非同期ローカル-SGDについて実証的研究を行い、SGDのステップが完了した直後に、各ワーカーがグローバルパラメータを更新する。
論文 参考訳(メタデータ) (2024-01-17T11:17:04Z) - Fast and Straggler-Tolerant Distributed SGD with Reduced Computation
Load [11.069252535469644]
勾配降下(SGD)のような最適化手順は、ストラグラーと呼ばれる非応答性や遅い労働者の影響を軽減するために利用することができる。
これは、ワーカのサブセットがアルゴリズムの各イテレーションで計算を完了するのを待つだけで実現できる。
我々は,アルゴリズムの実行時間を通じて,作業者数と計算負荷の両方を適応させる新しいスキームを構築した。
論文 参考訳(メタデータ) (2023-04-17T20:12:18Z) - STSyn: Speeding Up Local SGD with Straggler-Tolerant Synchronization [14.526055067546507]
ローカル同期は、作業者が同じローカル更新を完了するのを待つため、遅くてトラグラーな作業員のために、ランダムな遅延をアイドルしている作業員に悩まされる。
本稿では,トラグラーを緩和し,通信効率を向上させるため,STSynと呼ばれる新しいローカルSGDシステム戦略を開発した。
論文 参考訳(メタデータ) (2022-10-06T08:04:20Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - Gradient Coding with Dynamic Clustering for Straggler Mitigation [57.9123881133818]
GC-DCは、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグラーワーカ数を規制する。
本稿では,GC-DCが従来のGC方式に比べて通信負荷を増大させることなく,各イテレーションの平均完了時間(各イテレーション)を大幅に改善できることを数値的に示す。
論文 参考訳(メタデータ) (2020-11-03T18:52:15Z) - Communication Efficient Distributed Learning with Censored, Quantized,
and Generalized Group ADMM [52.12831959365598]
本稿では,相互接続作業者のネットワーク上で定義されたコンセンサス最適化問題を解決するための,コミュニケーション効率のよい分散機械学習フレームワークを提案する。
提案アルゴリズムであるCensored and Quantized Generalized GADMMは、GADMM(Group Alternating Direction Method of Multipliers)の労働者グループ化と分散学習のアイデアを活用する。
CQ-GGADMMは通信ラウンド数で高い通信効率を示し、精度と収束速度を損なうことなくエネルギー消費を伝達する。
論文 参考訳(メタデータ) (2020-09-14T14:18:19Z) - Breaking (Global) Barriers in Parallel Stochastic Optimization with
Wait-Avoiding Group Averaging [34.55741812648229]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。
ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文 参考訳(メタデータ) (2020-04-30T22:11:53Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。