論文の概要: ABS-SGD: A Delayed Synchronous Stochastic Gradient Descent Algorithm
with Adaptive Batch Size for Heterogeneous GPU Clusters
- arxiv url: http://arxiv.org/abs/2308.15164v1
- Date: Tue, 29 Aug 2023 09:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 14:47:53.894843
- Title: ABS-SGD: A Delayed Synchronous Stochastic Gradient Descent Algorithm
with Adaptive Batch Size for Heterogeneous GPU Clusters
- Title(参考訳): ABS-SGD:不均一GPUクラスタに対する適応バッチサイズ付き遅延同期確率勾配Descentアルゴリズム
- Authors: Xin Zhou, Ling Chen, Houming Wu
- Abstract要約: 不均一GPUクラスタに対する適応バッチサイズ(ABS-SGD)を用いた遅延同期分散勾配降下アルゴリズムを提案する。
ABS-SGDでは、ワーカはグローバル同期を行い、遅延勾配を蓄積し、累積遅延勾配を使用してパラメータを更新する。
3種類の異種クラスターにおける大規模な実験により、ABS-SGDが計算資源を完全に活用できることが示されている。
- 参考スコア(独自算出の注目度): 9.885668723959125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the size of models and datasets grows, it has become increasingly common
to train models in parallel. However, existing distributed stochastic gradient
descent (SGD) algorithms suffer from insufficient utilization of computational
resources and poor convergence in heterogeneous clusters. In this paper, we
propose a delayed synchronous SGD algorithm with adaptive batch size (ABS-SGD)
for heterogeneous GPU clusters. In ABS-SGD, workers perform global
synchronization to accumulate delayed gradients and use the accumulated delayed
gradients to update parameters. While workers are performing global
synchronization for delayed gradients, they perform the computation of the next
batch without specifying batch size in advance, which lasts until the next
global synchronization starts, realizing the full utilization of computational
resources. Since the gradient delay is only one iteration, the stale gradient
problem can be alleviated. We theoretically prove the convergence of ABS-SGD in
heterogeneous clusters. Extensive experiments in three types of heterogeneous
clusters demonstrate that ABS-SGD can make full use of computational resources
and accelerate model convergence: When training ResNet18 network with 4
workers, ABS-SGD increases the convergence speed by 1.30x on average compared
with the best baseline algorithm.
- Abstract(参考訳): モデルとデータセットのサイズが大きくなるにつれて、モデルを並列にトレーニングすることがますます一般的になっています。
しかし、既存の分散確率勾配降下(sgd)アルゴリズムは計算資源の利用不足と不均一クラスタでの収束不足に苦しんでいる。
本稿では,不均一GPUクラスタに対する適応バッチサイズ (ABS-SGD) の遅延同期SGDアルゴリズムを提案する。
ABS-SGDでは、ワーカはグローバル同期を行い、遅延勾配を蓄積し、累積遅延勾配を使用してパラメータを更新する。
作業者は遅延勾配に対するグローバル同期を行うが、事前にバッチサイズを指定せずに次のバッチの計算を実行し、次のグローバル同期が始まるまで継続し、計算リソースの完全な利用を実現する。
勾配遅延は1回しか起こらないため、定常勾配問題を緩和することができる。
理論的には異種クラスターにおけるABS-SGDの収束を証明している。
3種類のヘテロジニアスクラスタにおける広範囲な実験により、abs-sgdは計算資源をフル活用し、モデルの収束を加速できることが示されている: 4人のワーカーでresnet18ネットワークをトレーニングすると、abs-sgdは、最高のベースラインアルゴリズムと比較して平均で1.30倍の収束速度を増加させる。
関連論文リスト
- Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - AsGrad: A Sharp Unified Analysis of Asynchronous-SGD Algorithms [45.90015262911875]
不均一な環境で分散SGDのための非同期型アルゴリズムを解析する。
また,本分析の副産物として,ランダムなきついSGDのような勾配型アルゴリズムの保証を示す。
論文 参考訳(メタデータ) (2023-10-31T13:44:53Z) - Towards Understanding the Generalizability of Delayed Stochastic
Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。
既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。
我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文 参考訳(メタデータ) (2023-08-18T10:00:27Z) - Accelerating Parallel Stochastic Gradient Descent via Non-blocking
Mini-batches [3.736244431175932]
ノンブロッキングSGDは異種環境におけるストラグラー問題に対処することができる。
非ブロッキングSGDは、異種環境において同じトレーニング損失に達するのに最大2倍の時間を要する。
論文 参考訳(メタデータ) (2022-11-02T05:25:01Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - Gradient Coding with Dynamic Clustering for Straggler Mitigation [57.9123881133818]
GC-DCは、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグラーワーカ数を規制する。
本稿では,GC-DCが従来のGC方式に比べて通信負荷を増大させることなく,各イテレーションの平均完了時間(各イテレーション)を大幅に改善できることを数値的に示す。
論文 参考訳(メタデータ) (2020-11-03T18:52:15Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Overlap Local-SGD: An Algorithmic Approach to Hide Communication Delays
in Distributed SGD [32.03967072200476]
We propose a algorithmic approach named OverlapLocal-Local-Local-SGD (Local momentum variant)。
各ノードにアンカーモデルを追加することでこれを実現する。
複数のローカルアップデートの後、ローカルにトレーニングされたモデルは、他の人と通信するのではなく、アンカーモデルへと引き戻される。
論文 参考訳(メタデータ) (2020-02-21T20:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。