Fugu-MT 論文翻訳(概要): Accelerating AllReduce with a Persistent Straggler

論文の概要: Accelerating AllReduce with a Persistent Straggler

arxiv url: http://arxiv.org/abs/2505.23523v1
Date: Thu, 29 May 2025 15:03:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.924439
Title: Accelerating AllReduce with a Persistent Straggler
Title（参考訳）: 永続ストラグラーによるAllReduceの高速化
Authors: Arjun Devraj, Eric Ding, Abhishek Vijaya Kumar, Robert Kleinberg, Rachee Singh,
Abstract要約: StragglARは、永続的なストラグラーの存在下で、分散トレーニングと推論を加速するAllReduceアルゴリズムである。 8-GPUサーバ上では、StragglARの実装は最先端のAllReduceアルゴリズムよりも22%高速化される。
参考スコア（独自算出の注目度）: 5.160343192414151
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Distributed machine learning workloads use data and tensor parallelism for training and inference, both of which rely on the AllReduce collective to synchronize gradients or activations. However, bulk-synchronous AllReduce algorithms can be delayed by a persistent straggler that is slower to reach the synchronization barrier required to begin the collective. To address this challenge, we propose StragglAR: an AllReduce algorithm that accelerates distributed training and inference in the presence of persistent stragglers. StragglAR implements a ReduceScatter among the remaining GPUs during the straggler-induced delay, and then executes a novel collective algorithm to complete the AllReduce once the straggler reaches the synchronization barrier. StragglAR achieves a 2x theoretical speedup over popular bandwidth-efficient AllReduce algorithms (e.g., Ring) for large GPU clusters with persistent stragglers. On an 8-GPU server, our implementation of StragglAR yields a 22% speedup over state-of-the-art AllReduce algorithms.
Abstract（参考訳）: 分散機械学習ワークロードは、トレーニングと推論にデータとテンソル並列性を使用し、どちらも勾配やアクティベーションの同期にAllReduce集合に依存している。しかし、バルク同期AllReduceアルゴリズムは、集合を開始するのに必要な同期障壁に到達するのに遅くなる永続的なストラグラーによって遅延することができる。この課題に対処するために、分散トレーニングと推論を、永続的なストラグラーの存在下で高速化するAllReduceアルゴリズムであるStragglARを提案する。 StragglARは、トラグラー誘導遅延中に残りのGPU間でReduceeScatterを実装し、その後、トラグラーが同期障壁に達するとAllReduceを完了する新しい集合アルゴリズムを実行する。 StragglARは、一般的な帯域幅効率のAllReduceアルゴリズム(例えばRing)よりも2倍のスピードアップを実現している。 8-GPUサーバ上では、StragglARの実装は最先端のAllReduceアルゴリズムよりも22%高速化される。

関連論文リスト

Ringmaster ASGD: The First Asynchronous SGD with Optimal Time Complexity [92.1840862558718]
Ringmaster ASGDは任意に不均一な計算時間の下で最適な時間複雑性を達成する。これにより、このようなシナリオにおける時間複雑性の理論的な下限を満たす最初の非同期SGD法となる。
論文参考訳（メタデータ） (2025-01-27T16:07:26Z)
ACCO: Accumulate While You Communicate for Communication-Overlapped Sharded LLM Training [16.560270624096706]
我々は,分散LLM学習のためのメモリ効率最適化アルゴリズムである textbfCOmmunicate (acco) における textbfACcumulate を提案する。新しい処理を計算しながら遅延勾配を同期させることで、アイドル時間を短縮し、異種ハードウェアをサポートする。 ZeRO-1と比較して、我々のアプローチは大幅に高速で、異種ハードウェアで効果的にスケールできる。
論文参考訳（メタデータ） (2024-06-03T08:23:45Z)
Asynchronous Distributed Optimization with Delay-free Parameters [9.062164411594175]
本稿では,2つの分散アルゴリズム, Prox-DGD と DGD-ATC の非同期バージョンを開発し,無方向性ネットワーク上でのコンセンサス最適化問題を解く。代替アルゴリズムとは対照的に,我々のアルゴリズムは,遅延に依存しないステップサイズを用いて,同期アルゴリズムの固定点集合に収束することができる。
論文参考訳（メタデータ） (2023-12-11T16:33:38Z)
Robust Fully-Asynchronous Methods for Distributed Training over General Architecture [11.480605289411807]
分散機械学習問題における完全な同期は、レイテンシ、パッケージの損失、ストラグラーの存在のため、非効率であり、不可能である。本稿では,R-FAST (Fully-Asynchronous Gradient Tracking Method) を提案する。
論文参考訳（メタデータ） (2023-07-21T14:36:40Z)
DeAR: Accelerating Distributed Deep Learning with Fine-Grained All-Reduce Pipelining [22.168137965177284]
コミュニケーションスケジューリングは、分散トレーニングの加速に有効であることが示されている。本稿では,全再現プリミティブを2つの連続演算に分解する新しいスケジューリングアルゴリズムであるDeARを提案する。 DeARは最先端ソリューションよりも最大83%,15%のトレーニングスピードアップを実現していることを示す。
論文参考訳（メタデータ） (2023-02-24T04:11:18Z)
Teal: Learning-Accelerated Optimization of WAN Traffic Engineering [68.7863363109948]
本稿では,GPUの並列処理能力を活用してTE制御を高速化する学習型TEアルゴリズムTealを提案する。問題スケールの削減と学習のトラクタビリティ向上のために,Tealはマルチエージェント強化学習(RL)アルゴリズムを用いて,各トラフィック要求を独立に割り当てる。他のTE加速方式と比較して、Tealは需要を6～32%増やし、197～625倍のスピードアップを達成している。
論文参考訳（メタデータ） (2022-10-25T04:46:30Z)
SYNTHESIS: A Semi-Asynchronous Path-Integrated Stochastic Gradient Method for Distributed Learning in Computing Clusters [7.968142741470549]
ulstochastic gradulient ulsearchは、同期および非同期分散学習アルゴリズムの制限を克服するために開発された。 algnameアルゴリズムは(O(sqrtNepsilon-2(Delta+1) d+N))と(O(sqrtNepsilon-2(+1) d+N))を持つ (エプシロン)分散共有メモリアーキテクチャにおける非デルタ学習の定常点
論文参考訳（メタデータ） (2022-08-17T17:42:33Z)
Gradient Coding with Dynamic Clustering for Straggler-Tolerant Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文参考訳（メタデータ） (2021-03-01T18:51:29Z)
Gradient Coding with Dynamic Clustering for Straggler Mitigation [57.9123881133818]
GC-DCは、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグラーワーカ数を規制する。本稿では,GC-DCが従来のGC方式に比べて通信負荷を増大させることなく,各イテレーションの平均完了時間(各イテレーション)を大幅に改善できることを数値的に示す。
論文参考訳（メタデータ） (2020-11-03T18:52:15Z)
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。本研究の結果は, 同時一次および二重側収束の形で表される。
論文参考訳（メタデータ） (2020-08-23T20:36:49Z)
Lagrangian Decomposition for Neural Network Verification [148.0448557991349]
ニューラルネットワーク検証の基本的なコンポーネントは、出力が取ることのできる値のバウンダリの計算である。ラグランジアン分解に基づく新しい手法を提案する。ランニングタイムのごく一部で、既成の解法に匹敵するバウンダリが得られることを示す。
論文参考訳（メタデータ） (2020-02-24T17:55:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。