Fugu-MT 論文翻訳(概要): DropCompute: simple and more robust distributed synchronous training via compute variance reduction

論文の概要: DropCompute: simple and more robust distributed synchronous training via compute variance reduction

arxiv url: http://arxiv.org/abs/2306.10598v2
Date: Sun, 24 Sep 2023 07:15:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-27 02:11:25.726537
Title: DropCompute: simple and more robust distributed synchronous training via compute variance reduction
Title（参考訳）: dropcompute: 計算分散低減による、シンプルでより堅牢な分散同期トレーニング
Authors: Niv Giladi, Shahar Gottlieb, Moran Shkolnik, Asaf Karnieli, Ron Banner, Elad Hoffer, Kfir Yehuda Levy, Daniel Soudry
Abstract要約: 本稿では,計算時間の変動により労働者が混在する典型的なシナリオについて考察する。作業者間のばらつきを低減し,同期学習の堅牢性を向上する,シンプルで効果的な分散化手法を提案する。
参考スコア（独自算出の注目度）: 30.46681332866494
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Background: Distributed training is essential for large scale training of deep neural networks (DNNs). The dominant methods for large scale DNN training are synchronous (e.g. All-Reduce), but these require waiting for all workers in each step. Thus, these methods are limited by the delays caused by straggling workers. Results: We study a typical scenario in which workers are straggling due to variability in compute time. We find an analytical relation between compute time properties and scalability limitations, caused by such straggling workers. With these findings, we propose a simple yet effective decentralized method to reduce the variation among workers and thus improve the robustness of synchronous training. This method can be integrated with the widely used All-Reduce. Our findings are validated on large-scale training tasks using 200 Gaudi Accelerators.
Abstract（参考訳）: 背景: ディープニューラルネットワーク(DNN)の大規模トレーニングには分散トレーニングが不可欠である。大規模DNNトレーニングの主要な方法は同期(All-Reduceなど)であるが、各ステップですべてのワーカーを待つ必要がある。このように、これらの方法は、重労働による遅延によって制限される。結果: 計算時間の変動によって作業員が行き詰まる典型的なシナリオについて検討した。計算時間特性とスケーラビリティの制約との間には,このような乱雑な作業者によって引き起こされる解析的な関係がある。そこで本研究では,作業者間のばらつきを低減し,同期訓練の堅牢性を向上させるための簡易かつ効果的な分散化手法を提案する。この方法は広く使われているall-reduceと統合できる。本研究は,200ガウディ加速器を用いた大規模トレーニングタスクで検証した。

関連論文リスト

ATA: Adaptive Task Allocation for Efficient Resource Management in Distributed Machine Learning [54.08906841213777]
非同期手法は分散機械学習における計算の並列化の基礎となる。本稿では,不均一かつランダムな計算時間分布に適応するATA(Adaptive Task Allocation)を提案する。 ATAは最適なタスク割り当てを識別し、計算時間に関する事前の知識を持つメソッドと互換性があることを示す。
論文参考訳（メタデータ） (2025-02-02T12:22:26Z)
Fast and Straggler-Tolerant Distributed SGD with Reduced Computation Load [11.069252535469644]
勾配降下(SGD)のような最適化手順は、ストラグラーと呼ばれる非応答性や遅い労働者の影響を軽減するために利用することができる。これは、ワーカのサブセットがアルゴリズムの各イテレーションで計算を完了するのを待つだけで実現できる。我々は,アルゴリズムの実行時間を通じて,作業者数と計算負荷の両方を適応させる新しいスキームを構築した。
論文参考訳（メタデータ） (2023-04-17T20:12:18Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
Efficient Distributed Machine Learning via Combinatorial Multi-Armed Bandits [23.289979018463406]
我々は、主ノードが$n$ワーカー間で勾配計算を分散する分散勾配降下問題を考え、そこから少なくとも$b leq n$を並列に利用することができる。すべてのワーカーにタスクを割り当て、$k$の高速なものだけを待つことで、メインノードはアルゴリズムが進化するにつれて徐々に$k$を増大させることで、アルゴリズムのエラーをランタイムとトレードオフすることができる。この戦略はアダプティブkシンクと呼ばれ、遅い作業者の計算作業を無視するため、追加のコストを発生させることができる。タスクを$k$にのみ割り当てるコスト効率の高いスキームを提案する。
論文参考訳（メタデータ） (2022-02-16T19:18:19Z)
RelaySum for Decentralized Deep Learning on Heterogeneous Data [71.36228931225362]
分散機械学習では、労働者はローカルデータのモデル更新を計算する。労働者は中心的な調整なしに隣人とのみ通信するため、これらの更新はネットワーク上で徐々に伝播する。このパラダイムは、全接続のないネットワーク上での分散トレーニングを可能にし、データのプライバシ保護と、データセンタでの分散トレーニングの通信コストの削減を支援する。
論文参考訳（メタデータ） (2021-10-08T14:55:32Z)
Distribution Mismatch Correction for Improved Robustness in Deep Neural Networks [86.42889611784855]
正規化法はノイズや入力の腐敗に関して脆弱性を増大させる本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文参考訳（メタデータ） (2021-10-05T11:36:25Z)
Distributed Optimization using Heterogeneous Compute Systems [0.0]
計算能力の異なる労働者の分散システムにおけるディープニューラルネットワークのトレーニングを検討する。同期分散トレーニングの簡単な実装により、より高速なワーカは、最も遅いワーカが処理を完了するのを待つことになる。トレーニング中に各作業員に割り当てられたデータを動的に調整することを提案する。
論文参考訳（メタデータ） (2021-10-03T11:21:49Z)
What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文参考訳（メタデータ） (2021-06-08T08:58:00Z)
A Low Complexity Decentralized Neural Net with Centralized Equivalence using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文参考訳（メタデータ） (2020-09-29T13:08:12Z)
PSO-PS: Parameter Synchronization with Particle Swarm Optimization for Distributed Training of Deep Neural Networks [16.35607080388805]
我々はディープニューラルネットワーク(DNN)の分散トレーニングプロセスにParticle Swarm Optimizationを統合する新しいアルゴリズムを提案する。提案アルゴリズムでは,粒子によって計算処理を符号化し,DNNの重みとトレーニング損失を粒子特性によってモデル化する。各同期段階では、重みや勾配を平均化する代わりに、すべての労働者から集められたサブウェイトからPSOによって重みが更新される。
論文参考訳（メタデータ） (2020-09-06T05:18:32Z)
DBS: Dynamic Batch Size For Distributed Deep Neural Network Training [19.766163856388694]
ディープニューラルネットワーク(DNN)の分散学習のための動的バッチサイズ(DBS)戦略を提案する。具体的には、前のエポックの事実に基づいて各ワーカーのパフォーマンスを第一に評価し、バッチサイズとデータセット分割を動的に調整する。実験結果から,提案手法はクラスタの性能を十分に活用し,トレーニング時間を短縮し,無関係なタスクによる障害に強いロバスト性を有することを示す。
論文参考訳（メタデータ） (2020-07-23T07:31:55Z)
Straggler-aware Distributed Learning: Communication Computation Latency Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文参考訳（メタデータ） (2020-04-10T08:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。