論文の概要: Fast and Straggler-Tolerant Distributed SGD with Reduced Computation
Load
- arxiv url: http://arxiv.org/abs/2304.08589v1
- Date: Mon, 17 Apr 2023 20:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 16:42:41.497547
- Title: Fast and Straggler-Tolerant Distributed SGD with Reduced Computation
Load
- Title(参考訳): 計算負荷を低減した高速・トラグルサ耐性分散SGD
- Authors: Maximilian Egger, Serge Kas Hanna and Rawad Bitar
- Abstract要約: 勾配降下(SGD)のような最適化手順は、ストラグラーと呼ばれる非応答性や遅い労働者の影響を軽減するために利用することができる。
これは、ワーカのサブセットがアルゴリズムの各イテレーションで計算を完了するのを待つだけで実現できる。
我々は,アルゴリズムの実行時間を通じて,作業者数と計算負荷の両方を適応させる新しいスキームを構築した。
- 参考スコア(独自算出の注目度): 11.069252535469644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In distributed machine learning, a central node outsources computationally
expensive calculations to external worker nodes. The properties of optimization
procedures like stochastic gradient descent (SGD) can be leveraged to mitigate
the effect of unresponsive or slow workers called stragglers, that otherwise
degrade the benefit of outsourcing the computation. This can be done by only
waiting for a subset of the workers to finish their computation at each
iteration of the algorithm. Previous works proposed to adapt the number of
workers to wait for as the algorithm evolves to optimize the speed of
convergence. In contrast, we model the communication and computation times
using independent random variables. Considering this model, we construct a
novel scheme that adapts both the number of workers and the computation load
throughout the run-time of the algorithm. Consequently, we improve the
convergence speed of distributed SGD while significantly reducing the
computation load, at the expense of a slight increase in communication load.
- Abstract(参考訳): 分散機械学習では、中央ノードは計算コストのかかる計算を外部ワーカーノードにアウトソースする。
確率勾配降下(SGD)のような最適化手順の特性は、ストラグラーと呼ばれる非応答あるいは遅い労働者の影響を軽減するために利用することができる。
これは、ワーカのサブセットがアルゴリズムの各イテレーションで計算を完了するのを待つだけで実現できる。
アルゴリズムが進化して収束の速度を最適化するのを待つ労働者の数に適応する以前の研究が提案された。
対照的に、独立確率変数を用いて通信時間と計算時間をモデル化する。
このモデルを考慮すると、アルゴリズムの実行時間を通して、作業者数と計算負荷の両方を適応させる新しいスキームを構築する。
その結果,分散SGDの収束速度は,通信負荷のわずかな増加を犠牲にして,計算負荷を大幅に削減した。
関連論文リスト
- Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Efficient Distributed Machine Learning via Combinatorial Multi-Armed
Bandits [23.289979018463406]
我々は、主ノードが$n$ワーカー間で勾配計算を分散する分散勾配降下問題を考え、そこから少なくとも$b leq n$を並列に利用することができる。
すべてのワーカーにタスクを割り当て、$k$の高速なものだけを待つことで、メインノードはアルゴリズムが進化するにつれて徐々に$k$を増大させることで、アルゴリズムのエラーをランタイムとトレードオフすることができる。
この戦略はアダプティブkシンクと呼ばれ、遅い作業者の計算作業を無視するため、追加のコストを発生させることができる。
タスクを$k$にのみ割り当てるコスト効率の高いスキームを提案する。
論文 参考訳(メタデータ) (2022-02-16T19:18:19Z) - Coded Computation across Shared Heterogeneous Workers with Communication
Delay [42.50248255900814]
複数の行列乗算タスクを符号化し、並列計算のためにワーカーに割り当てるマルチワーカー分散コンピューティングのシナリオを考察する。
本稿では、各作業者が符号化されたタスクを処理可能な、専用および分数的な作業者割当ポリシーの下で、作業者割当、リソース割当負荷割当アルゴリズムを提案する。
提案アルゴリズムは,ベンチマークよりもタスク遅延の完了率を低減できることを示すとともに,専用および少数のワーカ割り当てポリシがアプリケーションのスコープが異なることを観察する。
論文 参考訳(メタデータ) (2021-09-23T09:40:54Z) - Gradient Coding with Dynamic Clustering for Straggler Mitigation [57.9123881133818]
GC-DCは、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグラーワーカ数を規制する。
本稿では,GC-DCが従来のGC方式に比べて通信負荷を増大させることなく,各イテレーションの平均完了時間(各イテレーション)を大幅に改善できることを数値的に示す。
論文 参考訳(メタデータ) (2020-11-03T18:52:15Z) - Coded Distributed Computing with Partial Recovery [56.08535873173518]
部分回復型符号化計算(CCPR)と呼ばれる新しい符号化行列ベクトル乗法を導入する。
CCPRは計算時間と復号化の複雑さを減らし、精度と計算速度のトレードオフを可能にする。
次に、この手法をより一般的な計算タスクの分散実装に拡張し、部分的回復を伴う符号化通信方式を提案する。
論文 参考訳(メタデータ) (2020-07-04T21:34:49Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z) - Variance Reduction with Sparse Gradients [82.41780420431205]
SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配が混在している。
我々は、新しい空間演算子:ランダムトップk演算子を導入する。
我々のアルゴリズムは、画像分類、自然言語処理、スパース行列分解など様々なタスクにおいて、一貫してSpiderBoostより優れています。
論文 参考訳(メタデータ) (2020-01-27T08:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。