Fugu-MT 論文翻訳(概要): Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates

論文の概要: Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates

arxiv url: http://arxiv.org/abs/2410.05985v3
Date: Fri, 07 Feb 2025 13:33:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 14:23:00.94025
Title: Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates
Title（参考訳）: Decoupled Backpropagation と Layer-Wise Update を併用した非同期確率的グラディエントDescent の1例
Authors: Cabrel Teguemne Fokam, Khaleelulla Khan Nazeer, Lukas König, David Kappel, Anand Subramoney,
Abstract要約: 非同期勾配降下法(ASGD)は訓練速度を改善することができるが、通信とスループットの差により遅延に敏感である。 PD-ASGDは、フォワードとバックのパスに別々のスレッドを使用し、更新を分離し、フォワードとバックのスレッドの比率を高くする。提案手法では,遅延が存在する場合,同期データ並列処理よりも5.95タイム以上高速に動作しながら,最先端の処理結果に近い結果が得られる。
参考スコア（独自算出の注目度）: 1.9241821314180372
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increasing size of deep learning models has made distributed training across multiple devices essential. However, current methods such as distributed data-parallel training suffer from large communication and synchronization overheads when training across devices, leading to longer training times as a result of suboptimal hardware utilization. Asynchronous stochastic gradient descent (ASGD) methods can improve training speed, but are sensitive to delays due to both communication and differences throughput. Moreover, the backpropagation algorithm used within ASGD workers is bottlenecked by the interlocking between its forward and backward passes. Current methods also do not take advantage of the large differences in the computation required for the forward and backward passes. Therefore, we propose an extension to ASGD called Partial Decoupled ASGD (PD-ASGD) that addresses these issues. PD-ASGD uses separate threads for the forward and backward passes, decoupling the updates and allowing for a higher ratio of forward to backward threads than the usual 1:1 ratio, leading to higher throughput. PD-ASGD also performs layer-wise (partial) model updates concurrently across multiple threads. This reduces parameter staleness and consequently improves robustness to delays. Our approach yields close to state-of-the-art results while running up to $5.95\times$ faster than synchronous data parallelism in the presence of delays, and up to $2.14\times$ times faster than comparable ASGD algorithms by achieving higher model flops utilization. We mathematically describe the gradient bias introduced by our method, establish an upper bound, and prove convergence.
Abstract（参考訳）: ディープラーニングモデルのサイズが大きくなるにつれて、複数のデバイス間での分散トレーニングが不可欠になっている。しかし、分散データ並列トレーニングのような現在の手法は、デバイス間のトレーニングにおいて大きな通信と同期オーバーヘッドに悩まされ、ハードウェアの最適下利用によるトレーニング時間が長くなる。非同期確率勾配降下法(ASGD)は訓練速度を向上するが、通信と差分スループットの両方による遅延に敏感である。さらに、ASGDワーカ内で使用されるバックプロパゲーションアルゴリズムは、前方パスと後方パスのインターロックによってボトルネックとなる。現在の手法は、前方と後方のパスに必要な計算に大きな違いを生かしていない。そこで我々は,これらの問題に対処する部分分離ASGD (PD-ASGD) というASGDの拡張を提案する。 PD-ASGDはフォワードパスとバックパスに別々のスレッドを使用し、更新を分離し、通常の1:1比よりもフォワードスレッドとバックスレッドの比率が高くなり、スループットが向上する。 PD-ASGDはまた、複数のスレッドで同時にレイヤワイズ(部分)モデル更新を行う。これによりパラメータの安定性が低下し、結果として遅延に対する堅牢性が向上する。提案手法は,遅延が存在する場合の同期データ並列処理よりも5.95倍高速で,モデルフロップの利用率の向上により,同等のASGDアルゴリズムよりも2.14倍高速である。本手法によって導入された勾配バイアスを数学的に記述し,上界を確立し,収束性を証明する。

関連論文リスト

Pseudo-Asynchronous Local SGD: Robust and Efficient Data-Parallel Training [25.025458975145757]
PseudosynchronousA Local SGD (PALSGD) と呼ばれる手法を提案する。 PALSGDは標準のローカルSGDよりも長い同期間隔を使用することができる。その結果,PALSGDは従来の手法に比べて少ない時間で性能が向上することがわかった。
論文参考訳（メタデータ） (2025-04-25T16:06:08Z)
BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文参考訳（メタデータ） (2024-10-25T08:08:51Z)
AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising [49.785626309848276]
AsyncDiffは、複数のデバイスにまたがるモデル並列化を可能にする、普遍的でプラグアンドプレイのアクセラレーションスキームである。安定拡散 v2.1 では、AsyncDiff は2.7倍の速度アップと4.0倍のスピードアップを実現し、CLIPスコアの 0.38 をわずかに削減した。我々の実験は、AsyncDiffがビデオ拡散モデルに容易に適用でき、性能を向上できることを示した。
論文参考訳（メタデータ） (2024-06-11T03:09:37Z)
Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。 FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文参考訳（メタデータ） (2024-03-06T05:13:28Z)
AsGrad: A Sharp Unified Analysis of Asynchronous-SGD Algorithms [45.90015262911875]
不均一な環境で分散SGDのための非同期型アルゴリズムを解析する。また,本分析の副産物として,ランダムなきついSGDのような勾配型アルゴリズムの保証を示す。
論文参考訳（メタデータ） (2023-10-31T13:44:53Z)
Robust Fully-Asynchronous Methods for Distributed Training over General Architecture [11.480605289411807]
分散機械学習問題における完全な同期は、レイテンシ、パッケージの損失、ストラグラーの存在のため、非効率であり、不可能である。本稿では,R-FAST (Fully-Asynchronous Gradient Tracking Method) を提案する。
論文参考訳（メタデータ） (2023-07-21T14:36:40Z)
OSP: Boosting Distributed Model Training with 2-stage Synchronization [24.702780532364056]
オーバーラップ並列化(OSP)と呼ばれる新しいモデル同期手法を提案する。 OSPは2段階同期方式で効率的な通信を実現し、Local-Gradientベースを使用する。古いパラメータによる精度損失を避けるための修正(LGP)。その結果、OSPは、一般的な同期モデルと比較して、精度を損なうことなく、最大50%のスループット向上を達成できることがわかった。
論文参考訳（メタデータ） (2023-06-29T13:24:12Z)
Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文参考訳（メタデータ） (2022-04-18T17:53:44Z)
Learning Iterative Robust Transformation Synchronization [71.73273007900717]
グラフニューラルネットワーク(GNN)を用いて変換同期を学習することを提案する。本研究では、ロバストな損失関数のハンドクラフトを回避するとともに、グラフニューラルネットワーク(GNN)を用いて変換同期を学習することを提案する。
論文参考訳（メタデータ） (2021-11-01T07:03:14Z)
Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。 DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文参考訳（メタデータ） (2021-07-06T21:59:49Z)
Gradient Coding with Dynamic Clustering for Straggler Mitigation [57.9123881133818]
GC-DCは、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグラーワーカ数を規制する。本稿では,GC-DCが従来のGC方式に比べて通信負荷を増大させることなく,各イテレーションの平均完了時間(各イテレーション)を大幅に改善できることを数値的に示す。
論文参考訳（メタデータ） (2020-11-03T18:52:15Z)
Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文参考訳（メタデータ） (2020-10-26T14:55:31Z)
Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文参考訳（メタデータ） (2020-09-19T17:28:11Z)
HPSGD: Hierarchical Parallel SGD With Stale Gradients Featuring [18.8426865970643]
ディープニューラルネットワーク(DNN)の分散トレーニングプロセスを促進するために,新しい階層型並列SGD(HPSGD)戦略を提案する。提案手法が分散DNNトレーニングを大幅に促進し, 定常勾配の乱れを低減し, 固定壁面の精度を向上することを示す実験を行った。
論文参考訳（メタデータ） (2020-09-06T10:17:56Z)
DaSGD: Squeezing SGD Parallelization Performance in Distributed Training Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。 DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文参考訳（メタデータ） (2020-05-31T05:43:50Z)
OD-SGD: One-step Delay Stochastic Gradient Descent for Distributed Training [5.888925582071453]
本研究では,1段階遅延SGD(OD-SGD)と呼ばれる新しい技術を提案する。提案アルゴリズムは,MNIST, CIFAR-10, ImageNetのデータセットを用いて評価する。
論文参考訳（メタデータ） (2020-05-14T05:33:36Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)
A Hybrid-Order Distributed SGD Method for Non-Convex Optimization to Balance Communication Overhead, Computational Complexity, and Convergence Rate [28.167294398293297]
通信負荷の少ない分散勾配降下法(SGD)を提案する。各イテレーションにおける計算複雑性を低減するために、ワーカノードは、方向微分をゼロ階勾配推定で近似する。
論文参考訳（メタデータ） (2020-03-27T14:02:15Z)
Accelerating Feedforward Computation via Parallel Nonlinear Equation Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文参考訳（メタデータ） (2020-02-10T10:11:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。