論文の概要: Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates
- arxiv url: http://arxiv.org/abs/2410.05985v1
- Date: Tue, 8 Oct 2024 12:32:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 11:50:19.109007
- Title: Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates
- Title(参考訳): Decoupled Backpropagation と Layer-Wise Update を併用した非同期確率的グラディエントDescent の1例
- Authors: Cabrel Teguemne Fokam, Khaleelulla Khan Nazeer, Lukas König, David Kappel, Anand Subramoney,
- Abstract要約: バックプロパゲーションの大きな欠点の1つは、アルゴリズムの前方フェーズと後方フェーズの間のインターロックである。
本稿では,複数のスレッドから非同期に更新することで,モデルのレイヤ間でSGD更新を並列化する手法を提案する。
このアプローチは、Hongwild!よりも最大2.97倍高速で複数のデバイスでスケールしながら、最先端の結果に近い結果が得られることを示す。
- 参考スコア(独自算出の注目度): 1.9241821314180372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing size of deep learning models has created the need for more efficient alternatives to the standard error backpropagation algorithm, that make better use of asynchronous, parallel and distributed computing. One major shortcoming of backpropagation is the interlocking between the forward phase of the algorithm, which computes a global loss, and the backward phase where the loss is backpropagated through all layers to compute the gradients, which are used to update the network parameters. To address this problem, we propose a method that parallelises SGD updates across the layers of a model by asynchronously updating them from multiple threads. Furthermore, since we observe that the forward pass is often much faster than the backward pass, we use separate threads for the forward and backward pass calculations, which allows us to use a higher ratio of forward to backward threads than the usual 1:1 ratio, reducing the overall staleness of the parameters. Thus, our approach performs asynchronous stochastic gradient descent using separate threads for the loss (forward) and gradient (backward) computations and performs layer-wise partial updates to parameters in a distributed way. We show that this approach yields close to state-of-the-art results while running up to 2.97x faster than Hogwild! scaled on multiple devices (Locally-Partitioned-Asynchronous-Parallel SGD). We theoretically prove the convergence of the algorithm using a novel theoretical framework based on stochastic differential equations and the drift diffusion process, by modeling the asynchronous parameter updates as a stochastic process.
- Abstract(参考訳): ディープラーニングモデルのサイズが大きくなるにつれ、非同期、並列、分散コンピューティングをより活用する標準エラーバックプロパゲーションアルゴリズムに対する、より効率的な代替手段の必要性が高まっている。
バックプロパゲーションの最大の欠点は、グローバルな損失を計算するアルゴリズムの前フェーズと、ネットワークパラメータの更新に使用される勾配を計算するためにすべての層を通して損失が逆プロパゲーションされる下位フェーズとのインターロックである。
そこで本研究では,複数のスレッドから非同期に更新することで,モデルのレイヤ間でSGD更新を並列化する手法を提案する。
さらに,前進パスが後進パスよりもはるかに高速であることから,前進パスと後進パスの計算に別スレッドを用いることで,前進スレッドと後進スレッドの比率を通常の1:1比よりも高めることができるため,パラメータの全体としての安定性が低下する。
そこで本手法では,損失(前方)と勾配(後方)の計算に別スレッドを用いて非同期確率勾配降下を行い,パラメータの階層的部分的更新を分散的に行う。
複数のデバイス(Locally-Partitioned-Asynchronous-Parallel SGD)でスケールしたHogwild!よりも最大2.97倍高速に動作しながら、このアプローチは最先端の結果に近い結果が得られることを示す。
本稿では,確率微分方程式とドリフト拡散過程に基づく新しい理論フレームワークを用いて,非同期パラメータの更新を確率過程としてモデル化し,アルゴリズムの収束性を理論的に証明する。
関連論文リスト
- BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。
最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文 参考訳(メタデータ) (2024-10-25T08:08:51Z) - AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising [49.785626309848276]
AsyncDiffは、複数のデバイスにまたがるモデル並列化を可能にする、普遍的でプラグアンドプレイのアクセラレーションスキームである。
安定拡散 v2.1 では、AsyncDiff は2.7倍の速度アップと4.0倍のスピードアップを実現し、CLIPスコアの 0.38 をわずかに削減した。
我々の実験は、AsyncDiffがビデオ拡散モデルに容易に適用でき、性能を向上できることを示した。
論文 参考訳(メタデータ) (2024-06-11T03:09:37Z) - Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。
FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文 参考訳(メタデータ) (2024-03-06T05:13:28Z) - Robust Fully-Asynchronous Methods for Distributed Training over General Architecture [11.480605289411807]
分散機械学習問題における完全な同期は、レイテンシ、パッケージの損失、ストラグラーの存在のため、非効率であり、不可能である。
本稿では,R-FAST (Fully-Asynchronous Gradient Tracking Method) を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:36:40Z) - Delay-adaptive step-sizes for asynchronous learning [8.272788656521415]
システム内の実際の時間変化の遅延に依存する学習率を利用することが可能であることを示す。
これらの方法のそれぞれに対して, 遅延をオンラインで測定し, 遅延適応的なステップサイズポリシーを提示し, 現状に対する理論的, 実践的優位性を実証する。
論文 参考訳(メタデータ) (2022-02-17T09:51:22Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - Gradient Coding with Dynamic Clustering for Straggler Mitigation [57.9123881133818]
GC-DCは、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグラーワーカ数を規制する。
本稿では,GC-DCが従来のGC方式に比べて通信負荷を増大させることなく,各イテレーションの平均完了時間(各イテレーション)を大幅に改善できることを数値的に示す。
論文 参考訳(メタデータ) (2020-11-03T18:52:15Z) - Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。
具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-26T14:55:31Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - OD-SGD: One-step Delay Stochastic Gradient Descent for Distributed
Training [5.888925582071453]
本研究では,1段階遅延SGD(OD-SGD)と呼ばれる新しい技術を提案する。
提案アルゴリズムは,MNIST, CIFAR-10, ImageNetのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-05-14T05:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。