論文の概要: Taming Unbalanced Training Workloads in Deep Learning with Partial Collective Operations
- arxiv url: http://arxiv.org/abs/1908.04207v4
- Date: Tue, 19 Aug 2025 09:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.238565
- Title: Taming Unbalanced Training Workloads in Deep Learning with Partial Collective Operations
- Title(参考訳): 部分的集団運用による深層学習におけるトレーニング負荷の非バランス化
- Authors: Shigang Li, Tal Ben-Nun, Salvatore Di Girolamo, Dan Alistarh, Torsten Hoefler,
- Abstract要約: 本稿では,分散的蓄積のためのグローバル同期を緩和するeager-SGDを提案する。
本稿では,最先端同期SGDの1.27倍の高速化を実現し,精度を損なわないことを示す。
- 参考スコア(独自算出の注目度): 49.26578529891149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Load imbalance pervasively exists in distributed deep learning training systems, either caused by the inherent imbalance in learned tasks or by the system itself. Traditional synchronous Stochastic Gradient Descent (SGD) achieves good accuracy for a wide variety of tasks, but relies on global synchronization to accumulate the gradients at every training step. In this paper, we propose eager-SGD, which relaxes the global synchronization for decentralized accumulation. To implement eager-SGD, we propose to use two partial collectives: solo and majority. With solo allreduce, the faster processes contribute their gradients eagerly without waiting for the slower processes, whereas with majority allreduce, at least half of the participants must contribute gradients before continuing, all without using a central parameter server. We theoretically prove the convergence of the algorithms and describe the partial collectives in detail. Experimental results on load-imbalanced environments (CIFAR-10, ImageNet, and UCF101 datasets) show that eager-SGD achieves 1.27x speedup over the state-of-the-art synchronous SGD, without losing accuracy.
- Abstract(参考訳): 負荷不均衡は、学習タスクの固有の不均衡やシステム自体によって引き起こされる分散ディープラーニングトレーニングシステムに広く存在する。
従来の同期SGD(Stochastic Gradient Descent)は、様々なタスクに対して高い精度を達成するが、グローバル同期に依存して各トレーニングステップで勾配を蓄積する。
本稿では,分散的蓄積のためのグローバル同期を緩和するeager-SGDを提案する。
本稿では,SGDを積極的に実装するために,ソロとマジョリティの2つの部分集合を用いることを提案する。
ソロアレーダでは、遅いプロセスを待つことなく、より高速なプロセスが勾配に熱心に寄与する一方、過半数アレーダでは、参加者の少なくとも半数は、中央パラメータサーバーを使わずに、続く前に勾配に寄与しなければならない。
理論的にはアルゴリズムの収束を証明し、部分集合を詳細に記述する。
負荷不均衡環境(CIFAR-10, ImageNet, UCF101データセット)の実験結果から, 最先端同期SGDの1.27倍の高速化を実現し, 精度を損なうことなく達成できた。
関連論文リスト
- Ringmaster ASGD: The First Asynchronous SGD with Optimal Time Complexity [92.1840862558718]
Ringmaster ASGDは任意に不均一な計算時間の下で最適な時間複雑性を達成する。
これにより、このようなシナリオにおける時間複雑性の理論的な下限を満たす最初の非同期SGD法となる。
論文 参考訳(メタデータ) (2025-01-27T16:07:26Z) - DropCompute: simple and more robust distributed synchronous training via
compute variance reduction [30.46681332866494]
本稿では,計算時間の変動により労働者が混在する典型的なシナリオについて考察する。
作業者間のばらつきを低減し,同期学習の堅牢性を向上する,シンプルで効果的な分散化手法を提案する。
論文 参考訳(メタデータ) (2023-06-18T16:55:31Z) - Quantize Once, Train Fast: Allreduce-Compatible Compression with Provable Guarantees [53.950234267704]
我々は、全リデュース勾配互換量子化法であるGlobal-QSGDを紹介する。
ベースライン量子化法で最大3.51%の分散トレーニングを高速化することを示す。
論文 参考訳(メタデータ) (2023-05-29T21:32:15Z) - Accelerating Parallel Stochastic Gradient Descent via Non-blocking
Mini-batches [3.736244431175932]
ノンブロッキングSGDは異種環境におけるストラグラー問題に対処することができる。
非ブロッキングSGDは、異種環境において同じトレーニング損失に達するのに最大2倍の時間を要する。
論文 参考訳(メタデータ) (2022-11-02T05:25:01Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Breaking (Global) Barriers in Parallel Stochastic Optimization with Wait-Avoiding Group Averaging [48.99717153937717]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。
ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文 参考訳(メタデータ) (2020-04-30T22:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。