論文の概要: Accelerating Parallel Stochastic Gradient Descent via Non-blocking
Mini-batches
- arxiv url: http://arxiv.org/abs/2211.00889v1
- Date: Wed, 2 Nov 2022 05:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 14:41:25.612940
- Title: Accelerating Parallel Stochastic Gradient Descent via Non-blocking
Mini-batches
- Title(参考訳): 非ブロックミニバッチによる並列確率勾配の加速
- Authors: Haoze He, Parijat Dube
- Abstract要約: ノンブロッキングSGDは異種環境におけるストラグラー問題に対処することができる。
非ブロッキングSGDは、異種環境において同じトレーニング損失に達するのに最大2倍の時間を要する。
- 参考スコア(独自算出の注目度): 3.736244431175932
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: SOTA decentralized SGD algorithms can overcome the bandwidth bottleneck at
the parameter server by using communication collectives like Ring All-Reduce
for synchronization. While the parameter updates in distributed SGD may happen
asynchronously there is still a synchronization barrier to make sure that the
local training epoch at every learner is complete before the learners can
advance to the next epoch. The delays in waiting for the slowest
learners(stragglers) remain to be a problem in the synchronization steps of
these state-of-the-art decentralized frameworks. In this paper, we propose the
(de)centralized Non-blocking SGD (Non-blocking SGD) which can address the
straggler problem in a heterogeneous environment. The main idea of Non-blocking
SGD is to split the original batch into mini-batches, then accumulate the
gradients and update the model based on finished mini-batches. The Non-blocking
idea can be implemented using decentralized algorithms including Ring
All-reduce, D-PSGD, and MATCHA to solve the straggler problem. Moreover, using
gradient accumulation to update the model also guarantees convergence and
avoids gradient staleness. Run-time analysis with random straggler delays and
computational efficiency/throughput of devices is also presented to show the
advantage of Non-blocking SGD. Experiments on a suite of datasets and deep
learning networks validate the theoretical analyses and demonstrate that
Non-blocking SGD speeds up the training and fastens the convergence. Compared
with the state-of-the-art decentralized asynchronous algorithms like D-PSGD and
MACHA, Non-blocking SGD takes up to 2x fewer time to reach the same training
loss in a heterogeneous environment.
- Abstract(参考訳): SOTA分散SGDアルゴリズムは、同期のためにRing All-Reduceのような通信集合を使用することで、パラメータサーバの帯域幅のボトルネックを克服することができる。
分散SGDのパラメータ更新は非同期に行われるかもしれないが、学習者が次のエポックに進む前に、各学習者のローカルトレーニングエポックが完了することを確実にするための同期障壁がある。
最も遅い学習者(ストラグラー)を待つのが遅れるのは、これらの最先端の分散フレームワークの同期ステップにおける問題である。
本稿では,異種環境におけるトラグラー問題に対処可能な分散非ブロック型SGD(非ブロック型SGD)を提案する。
非ブロッキングsgdの主な考え方は、元のバッチをミニバッチに分割し、勾配を蓄積し、完成したミニバッチに基づいてモデルを更新することである。
ノンブロッキングのアイデアは、Ring All-Reduce、D-PSGD、MATCHAといった分散アルゴリズムを用いて実装し、ストラグラー問題を解くことができる。
さらに、勾配蓄積を用いてモデルを更新することで収束を保証し、勾配の安定化を回避する。
非ブロッキングsgdの利点を示すために,ランダムストラグラー遅延とデバイスの計算効率/スループットを用いた実行時間解析も提示した。
データセットとディープラーニングネットワークの実験は、理論解析を検証し、ノンブロッキングSGDがトレーニングをスピードアップし、収束を加速することを示した。
D-PSGDやMACHAのような最先端の分散非同期アルゴリズムと比較して、ノンブロッキングSGDは異種環境において同じトレーニング損失に達するのに最大2倍の時間を要する。
関連論文リスト
- Digital Twin-Assisted Federated Learning with Blockchain in Multi-tier Computing Systems [67.14406100332671]
産業用 4.0 システムでは、リソース制約のあるエッジデバイスが頻繁にデータ通信を行う。
本稿では,デジタルツイン (DT) とフェデレーション付きデジタルツイン (FL) 方式を提案する。
提案手法の有効性を数値解析により検証した。
論文 参考訳(メタデータ) (2024-11-04T17:48:02Z) - Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - ABS-SGD: A Delayed Synchronous Stochastic Gradient Descent Algorithm
with Adaptive Batch Size for Heterogeneous GPU Clusters [9.885668723959125]
不均一GPUクラスタに対する適応バッチサイズ(ABS-SGD)を用いた遅延同期分散勾配降下アルゴリズムを提案する。
ABS-SGDでは、ワーカはグローバル同期を行い、遅延勾配を蓄積し、累積遅延勾配を使用してパラメータを更新する。
3種類の異種クラスターにおける大規模な実験により、ABS-SGDが計算資源を完全に活用できることが示されている。
論文 参考訳(メタデータ) (2023-08-29T09:46:52Z) - Towards Understanding the Generalizability of Delayed Stochastic
Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。
既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。
我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文 参考訳(メタデータ) (2023-08-18T10:00:27Z) - Asynchronous SGD Beats Minibatch SGD Under Arbitrary Delays [8.46491234455848]
ステップの数だけでなく、ステップの遅延にもよらず、同じ非同期勾配の保証がずっと良いことを証明しています。
そこで本研究では,「仮想ステップ」と「遅延反復」に基づいて,両凸非適応勾配に対する最先端保証を導出する手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T16:28:37Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z) - Slow and Stale Gradients Can Win the Race [39.750046808758526]
同期的に実行される分散Gradient Descent(SGD)は、最も遅いワーカー(ストラグラー)を待つとき、実行時の遅延に悩まされる。
非同期手法はストラグラーを緩和するが、収束誤差に悪影響を及ぼす勾配の安定化を引き起こす。
本稿では,訓練されたモデルにおけるエラーと実際のトレーニング実行時のトレードオフを解析し,非同期手法によって提供される高速化の理論的特徴について述べる。
論文 参考訳(メタデータ) (2020-03-23T23:27:50Z) - Overlap Local-SGD: An Algorithmic Approach to Hide Communication Delays
in Distributed SGD [32.03967072200476]
We propose a algorithmic approach named OverlapLocal-Local-Local-SGD (Local momentum variant)。
各ノードにアンカーモデルを追加することでこれを実現する。
複数のローカルアップデートの後、ローカルにトレーニングされたモデルは、他の人と通信するのではなく、アンカーモデルへと引き戻される。
論文 参考訳(メタデータ) (2020-02-21T20:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。