Fugu-MT 論文翻訳(概要): DaSGD: Squeezing SGD Parallelization Performance in Distributed Training Using Delayed Averaging

論文の概要: DaSGD: Squeezing SGD Parallelization Performance in Distributed Training Using Delayed Averaging

arxiv url: http://arxiv.org/abs/2006.00441v1
Date: Sun, 31 May 2020 05:43:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-26 13:17:14.847896
Title: DaSGD: Squeezing SGD Parallelization Performance in Distributed Training Using Delayed Averaging
Title（参考訳）: DaSGD: 遅延平均化を用いた分散トレーニングにおけるSGD並列化のパフォーマンス向上
Authors: Qinggang Zhou, Yawen Zhang, Pengcheng Li, Xiaoyong Liu, Jun Yang, Runsheng Wang and Ru Huang
Abstract要約: ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。 DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
参考スコア（独自算出の注目度）: 4.652668321425679
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The state-of-the-art deep learning algorithms rely on distributed training systems to tackle the increasing sizes of models and training data sets. Minibatch stochastic gradient descent (SGD) algorithm requires workers to halt forward/back propagations, to wait for gradients aggregated from all workers, and to receive weight updates before the next batch of tasks. This synchronous execution model exposes the overheads of gradient/weight communication among a large number of workers in a distributed training system. We propose a new SGD algorithm, DaSGD (Local SGD with Delayed Averaging), which parallelizes SGD and forward/back propagations to hide 100% of the communication overhead. By adjusting the gradient update scheme, this algorithm uses hardware resources more efficiently and reduces the reliance on the low-latency and high-throughput inter-connects. The theoretical analysis and the experimental results show its convergence rate O(1/sqrt(K)), the same as SGD. The performance evaluation demonstrates it enables a linear performance scale-up with the cluster size.
Abstract（参考訳）: 最先端のディープラーニングアルゴリズムは、モデルのサイズの増加とデータセットのトレーニングに取り組むために、分散トレーニングシステムに依存している。ミニバッチ確率勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止し、すべての作業者から集約された勾配を待ち、次の作業の前に重み更新を受ける必要がある。この同期実行モデルは、分散トレーニングシステムにおける多数のワーカー間の勾配/重み通信のオーバーヘッドを明らかにする。通信オーバヘッドの100%を隠蔽するために,SGDとフォワード/バックの伝搬を並列化する新しいSGDアルゴリズムDaSGD(Local SGD with Delayed Averaging)を提案する。このアルゴリズムは、勾配更新方式を調整することにより、ハードウェアリソースをより効率的に利用し、低レイテンシと高スループットのインターコネクションへの依存を減らす。理論解析と実験結果から,sgdと同じ収束率o(1/sqrt(k))が得られた。パフォーマンス評価は、クラスタサイズでリニアパフォーマンスのスケールアップを可能にすることを実証する。

関連論文リスト

FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates [1.9241821314180372]
非同期勾配降下法(ASGD)は訓練速度を改善することができるが、通信とスループットの差により遅延に敏感である。 PD-ASGDは、フォワードとバックのパスに別々のスレッドを使用し、更新を分離し、フォワードとバックのスレッドの比率を高くする。提案手法では,遅延が存在する場合,同期データ並列処理よりも5.95タイム以上高速に動作しながら,最先端の処理結果に近い結果が得られる。
論文参考訳（メタデータ） (2024-10-08T12:32:36Z)
ABS-SGD: A Delayed Synchronous Stochastic Gradient Descent Algorithm with Adaptive Batch Size for Heterogeneous GPU Clusters [9.885668723959125]
不均一GPUクラスタに対する適応バッチサイズ(ABS-SGD)を用いた遅延同期分散勾配降下アルゴリズムを提案する。 ABS-SGDでは、ワーカはグローバル同期を行い、遅延勾配を蓄積し、累積遅延勾配を使用してパラメータを更新する。 3種類の異種クラスターにおける大規模な実験により、ABS-SGDが計算資源を完全に活用できることが示されている。
論文参考訳（メタデータ） (2023-08-29T09:46:52Z)
Gradient Coding with Dynamic Clustering for Straggler-Tolerant Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文参考訳（メタデータ） (2021-03-01T18:51:29Z)
Gradient Coding with Dynamic Clustering for Straggler Mitigation [57.9123881133818]
GC-DCは、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグラーワーカ数を規制する。本稿では,GC-DCが従来のGC方式に比べて通信負荷を増大させることなく,各イテレーションの平均完了時間(各イテレーション)を大幅に改善できることを数値的に示す。
論文参考訳（メタデータ） (2020-11-03T18:52:15Z)
Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文参考訳（メタデータ） (2020-09-19T17:28:11Z)
HPSGD: Hierarchical Parallel SGD With Stale Gradients Featuring [18.8426865970643]
ディープニューラルネットワーク(DNN)の分散トレーニングプロセスを促進するために,新しい階層型並列SGD(HPSGD)戦略を提案する。提案手法が分散DNNトレーニングを大幅に促進し, 定常勾配の乱れを低減し, 固定壁面の精度を向上することを示す実験を行った。
論文参考訳（メタデータ） (2020-09-06T10:17:56Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)
Breaking (Global) Barriers in Parallel Stochastic Optimization with Wait-Avoiding Group Averaging [34.55741812648229]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。 ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文参考訳（メタデータ） (2020-04-30T22:11:53Z)
Overlap Local-SGD: An Algorithmic Approach to Hide Communication Delays in Distributed SGD [32.03967072200476]
We propose a algorithmic approach named OverlapLocal-Local-Local-SGD (Local momentum variant)。各ノードにアンカーモデルを追加することでこれを実現する。複数のローカルアップデートの後、ローカルにトレーニングされたモデルは、他の人と通信するのではなく、アンカーモデルへと引き戻される。
論文参考訳（メタデータ） (2020-02-21T20:33:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。