論文の概要: Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off
- arxiv url: http://arxiv.org/abs/2004.04948v1
- Date: Fri, 10 Apr 2020 08:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 21:34:58.572893
- Title: Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off
- Title(参考訳): straggler-aware distributed learning: 通信計算のレイテンシトレードオフ
- Authors: Emre Ozfatura, Sennur Ulukus, Deniz Gunduz
- Abstract要約: ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
- 参考スコア(独自算出の注目度): 56.08535873173518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When gradient descent (GD) is scaled to many parallel workers for large scale
machine learning problems, its per-iteration computation time is limited by the
straggling workers. Straggling workers can be tolerated by assigning redundant
computations and coding across data and computations, but in most existing
schemes, each non-straggling worker transmits one message per iteration to the
parameter server (PS) after completing all its computations. Imposing such a
limitation results in two main drawbacks; over-computation due to inaccurate
prediction of the straggling behaviour, and under-utilization due to treating
workers as straggler/non-straggler and discarding partial computations carried
out by stragglers. In this paper, to overcome these drawbacks, we consider
multi-message communication (MMC) by allowing multiple computations to be
conveyed from each worker per iteration, and design straggler avoidance
techniques accordingly. Then, we analyze how the proposed designs can be
employed efficiently to seek a balance between the computation and
communication latency to minimize the overall latency. Furthermore, through
extensive simulations, both model-based and real implementation on Amazon EC2
servers, we identify the advantages and disadvantages of these designs in
different settings, and demonstrate that MMC can help improve upon existing
straggler avoidance schemes.
- Abstract(参考訳): 大規模機械学習問題に対して、勾配降下(GD)を多くの並列ワーカーにスケールすると、その定位演算時間はストラグリングワーカーによって制限される。
ストリングワーカーは、データと計算をまたいで冗長な計算とコーディングを割り当てることで許容されるが、既存のほとんどのスキームでは、ストリング作業者は、すべての計算を完了した後に、反復毎に1つのメッセージをパラメータサーバ(ps)に送信する。
このような制限を課すことで、ストラグリング動作の不正確な予測による過剰計算と、ストラグラー/非ストラグラーとして労働者を扱い、トラグラーによって実行される部分計算を破棄するアンダーユースという2つの主な欠点が生じる。
本稿では,これらの欠点を克服するために,各作業者から繰り返し毎に複数の計算を伝達できるマルチメッセージ通信(MMC)と,それに伴うストラグラー回避手法を提案する。
次に,提案手法を効果的に活用し,計算と通信遅延のバランスを求め,全体のレイテンシを最小化する。
さらに,Amazon EC2サーバ上でのモデルベースおよび実実装の広範なシミュレーションを通じて,これらの設計の利点とデメリットを異なる設定で識別し,MCCが既存のストラグラー回避スキームを改善することを実証する。
関連論文リスト
- SignSGD with Federated Voting [69.06621279967865]
SignSGD with majority voting (signSGD-MV) は1ビット量子化により通信コストを大幅に削減できる効果的な分散学習アルゴリズムである。
我々は、テキストフェデレート投票(signSGD-FV)を用いた新しいサインSGDを提案する。
連合投票の考え方は、学習可能な重量を利用して多数決を行うことである。
提案手法は, エッジデバイスが不均一なミニバッチサイズを使用する場合でも, 理論的収束を保証する。
論文 参考訳(メタデータ) (2024-03-25T02:32:43Z) - Fast and Straggler-Tolerant Distributed SGD with Reduced Computation
Load [11.069252535469644]
勾配降下(SGD)のような最適化手順は、ストラグラーと呼ばれる非応答性や遅い労働者の影響を軽減するために利用することができる。
これは、ワーカのサブセットがアルゴリズムの各イテレーションで計算を完了するのを待つだけで実現できる。
我々は,アルゴリズムの実行時間を通じて,作業者数と計算負荷の両方を適応させる新しいスキームを構築した。
論文 参考訳(メタデータ) (2023-04-17T20:12:18Z) - Collaborative Learning over Wireless Networks: An Introductory Overview [84.09366153693361]
主に、ワイヤレスデバイス間の協調トレーニングに焦点を合わせます。
過去数十年間、多くの分散最適化アルゴリズムが開発されてきた。
データ局所性 – すなわち、各参加デバイスで利用可能なデータがローカルのままである間、共同モデルを協調的にトレーニングすることができる。
論文 参考訳(メタデータ) (2021-12-07T20:15:39Z) - Coded Computation across Shared Heterogeneous Workers with Communication
Delay [42.50248255900814]
複数の行列乗算タスクを符号化し、並列計算のためにワーカーに割り当てるマルチワーカー分散コンピューティングのシナリオを考察する。
本稿では、各作業者が符号化されたタスクを処理可能な、専用および分数的な作業者割当ポリシーの下で、作業者割当、リソース割当負荷割当アルゴリズムを提案する。
提案アルゴリズムは,ベンチマークよりもタスク遅延の完了率を低減できることを示すとともに,専用および少数のワーカ割り当てポリシがアプリケーションのスコープが異なることを観察する。
論文 参考訳(メタデータ) (2021-09-23T09:40:54Z) - A Machine Learning Approach for Task and Resource Allocation in Mobile
Edge Computing Based Networks [108.57859531628264]
無線ネットワークにおいて,共同作業,スペクトル,送信電力配分問題について検討する。
提案アルゴリズムは、標準Q-ラーニングアルゴリズムと比較して、収束に必要なイテレーション数と全ユーザの最大遅延を最大18%、11.1%削減することができる。
論文 参考訳(メタデータ) (2020-07-20T13:46:42Z) - Coded Distributed Computing with Partial Recovery [56.08535873173518]
部分回復型符号化計算(CCPR)と呼ばれる新しい符号化行列ベクトル乗法を導入する。
CCPRは計算時間と復号化の複雑さを減らし、精度と計算速度のトレードオフを可能にする。
次に、この手法をより一般的な計算タスクの分散実装に拡張し、部分的回復を伴う符号化通信方式を提案する。
論文 参考訳(メタデータ) (2020-07-04T21:34:49Z) - Communication-Efficient Gradient Coding for Straggler Mitigation in
Distributed Learning [17.454251607446555]
サーバがワーカマシン間で勾配計算を分散するグラデーションベースのメソッドの分散実装では、2つの制限を克服する必要がある。
Ye氏とAbe氏(ICML 2018)は、ワーカ毎の計算負荷、ワーカ毎の通信オーバーヘッド、ストラグラートレランスの基本的なトレードオフを特徴付ける、コーディング理論のパラダイムを提案した。
これらの欠点を克服するための通信効率のよい勾配符号化フレームワークを開発した。
論文 参考訳(メタデータ) (2020-05-14T17:57:13Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。