論文の概要: Anytime MiniBatch: Exploiting Stragglers in Online Distributed
Optimization
- arxiv url: http://arxiv.org/abs/2006.05752v1
- Date: Wed, 10 Jun 2020 09:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 05:06:53.966334
- Title: Anytime MiniBatch: Exploiting Stragglers in Online Distributed
Optimization
- Title(参考訳): Anytime MiniBatch: オンライン分散最適化におけるストラグラーの爆発
- Authors: Nuwan Ferdinand, Haider Al-Lawati, Stark C. Draper and Matthew Nokleby
- Abstract要約: 我々はAnytime Minibatchと呼ばれるオンライン分散最適化手法を提案する。
すべてのノードには、可能な限り多くのデータサンプルの勾配を計算するための固定時間がある。
私たちのアプローチはAmazon EC2の1.5倍高速です。
- 参考スコア(独自算出の注目度): 16.361894089347278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed optimization is vital in solving large-scale machine learning
problems. A widely-shared feature of distributed optimization techniques is the
requirement that all nodes complete their assigned tasks in each computational
epoch before the system can proceed to the next epoch. In such settings, slow
nodes, called stragglers, can greatly slow progress. To mitigate the impact of
stragglers, we propose an online distributed optimization method called Anytime
Minibatch. In this approach, all nodes are given a fixed time to compute the
gradients of as many data samples as possible. The result is a variable
per-node minibatch size. Workers then get a fixed communication time to average
their minibatch gradients via several rounds of consensus, which are then used
to update primal variables via dual averaging. Anytime Minibatch prevents
stragglers from holding up the system without wasting the work that stragglers
can complete. We present a convergence analysis and analyze the wall time
performance. Our numerical results show that our approach is up to 1.5 times
faster in Amazon EC2 and it is up to five times faster when there is greater
variability in compute node performance.
- Abstract(参考訳): 分散最適化は、大規模な機械学習問題を解決する上で不可欠である。
分散最適化手法の広く共有されている特徴は、システムが次のエポックに進む前に、全てのノードが割り当てられたタスクを各計算エポックで完了させることである。
このような設定では、ストラグラーと呼ばれる遅いノードは、進行を大幅に遅くする。
トラグラーの影響を軽減するため,Anytime Minibatchと呼ばれるオンライン分散最適化手法を提案する。
このアプローチでは、すべてのノードに可能な限り多くのデータサンプルの勾配を計算する固定時間を与える。
その結果、ノードごとのミニバッチサイズが変化する。
ワーカーは固定された通信時間を取得して、いくつかのコンセンサスを通じてミニバッチ勾配を平均し、それから2つの平均化によってプリミティブ変数を更新する。
anytime minibatchは、ストラグラーが完了できる作業を無駄にすることなく、ストラグラーがシステムを保持できないようにする。
コンバージェンス解析を行い,壁面の時間特性を解析する。
数値計算の結果,Amazon EC2では最大1.5倍高速であり,計算ノード性能の変動が大きい場合には最大5倍高速であることがわかった。
関連論文リスト
- Cooperative Minibatching in Graph Neural Networks [2.9904113489777826]
グラフニューラルネットワーク(GNN)のトレーニングには、かなりの計算リソースが必要で、そのプロセスはデータ集約性が高い。
リソース要求を減らす最も効果的な方法の1つは、グラフサンプリングと組み合わせたミニバッチトレーニングである。
本研究では, 連続したミニバッチを生成することで, 連続実行において同じ現象を利用する方法を示す。
論文 参考訳(メタデータ) (2023-10-19T01:15:24Z) - Distributed Extra-gradient with Optimal Complexity and Communication
Guarantees [60.571030754252824]
複数のプロセッサ/ワーカー/クライアントがローカルなデュアルベクトルにアクセス可能なマルチGPU設定において、モノトン変分不等式(VI)問題を考察する。
モノトーンVI問題に対するデファクトアルゴリズムであるExtra-gradientは、通信効率が良くないように設計されている。
そこで本稿では,VI の解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配 (Q-GenX) を提案する。
論文 参考訳(メタデータ) (2023-08-17T21:15:04Z) - Fast and Straggler-Tolerant Distributed SGD with Reduced Computation
Load [11.069252535469644]
勾配降下(SGD)のような最適化手順は、ストラグラーと呼ばれる非応答性や遅い労働者の影響を軽減するために利用することができる。
これは、ワーカのサブセットがアルゴリズムの各イテレーションで計算を完了するのを待つだけで実現できる。
我々は,アルゴリズムの実行時間を通じて,作業者数と計算負荷の両方を適応させる新しいスキームを構築した。
論文 参考訳(メタデータ) (2023-04-17T20:12:18Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Asynchronous Stochastic Optimization Robust to Arbitrary Delays [54.61797739710608]
遅延勾配の最適化を考えると、ステップt$毎に、アルゴリズムは古い計算を使って更新する - d_t$ for arbitrary delay $d_t gradient。
本実験は,遅延分布が歪んだり重くなったりした場合のアルゴリズムの有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2021-06-22T15:50:45Z) - Straggler-Resilient Distributed Machine Learning with Dynamic Backup
Workers [9.919012793724628]
作業者毎のバックアップ作業者数を決定するための完全分散アルゴリズムを提案する。
我々のアルゴリズムは収束の線形スピードアップを達成する(すなわち、労働者数に対して収束性能が線形に増加する)。
論文 参考訳(メタデータ) (2021-02-11T21:39:53Z) - Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。
具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-26T14:55:31Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z) - Fully Asynchronous Policy Evaluation in Distributed Reinforcement
Learning over Networks [14.636457985379746]
本稿では,有向ピアツーピアネットワーク上での分散強化学習(DisRL)のポリシー評価問題に対する非同期手法を提案する。
ネットワークの他のノードを待つことなく、各ノードは隣人からの(おそらく遅れた)情報を使用して、いつでもローカルに値関数を更新できる。
論文 参考訳(メタデータ) (2020-03-01T08:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。