論文の概要: Don't Let a Few Network Failures Slow the Entire AllReduce
- arxiv url: http://arxiv.org/abs/2606.01680v1
- Date: Mon, 01 Jun 2026 04:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:30.054668
- Title: Don't Let a Few Network Failures Slow the Entire AllReduce
- Title(参考訳): ネットワークの障害で全リデュースを遅くするな
- Authors: Peiqing Chen, Jiedong Jiang, Nengneng Yu, Yuefeng Wang, Sixian Xiong, Wei Wang, Zaoxing Liu,
- Abstract要約: 非対称ネットワーク帯域におけるAllReduce完了時間に対する情報理論の下限について述べる。
次に、この低いバウンダリにアプローチする4段パイプラインAllReduceアルゴリズムであるOpsCCを設計します。
SimAIの実験では、OptCCが既存のフォールトトレラント方式で残っているギャップを埋めていることが確認されている。
- 参考スコア(独自算出の注目度): 7.373533433335005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Network failures are among the most frequent hardware faults in large-scale GPU clusters and a leading cause of training-job interruptions. Modern collective communication libraries such as NCCL mitigate network failures by rerouting traffic through surviving NICs on the same server, trading reduced inter-node bandwidth for uninterrupted training. However, the degraded server remains on the critical path of the standard ring algorithm, slowing the entire collective. We present the first information-theoretic lower bound on AllReduce completion time under asymmetric network bandwidth and show that when the straggler retains at least half of its original bandwidth, the unavoidable overhead relative to the fault-free optimum is only O(1/p) for p GPUs. We then design OptCC, a four-stage pipelined AllReduce algorithm that approaches this lower bound. Experiments on SimAI confirm that OptCC closes the gap left by existing fault-tolerant schemes: under practical network failures with up to 50% bandwidth loss, OptCC completes AllReduce within 2-6% of NCCL's fault-free ring performance, whereas the state-of-the-art incurs up to 57% overhead.
- Abstract(参考訳): ネットワーク障害は、大規模GPUクラスタにおいて最も頻繁なハードウェア障害のひとつであり、トレーニングとジョブの中断の主な原因である。
NCCLのような現代の集合通信ライブラリは、ネットワーク障害を軽減し、同じサーバ上で生き残ったNICを通してトラフィックを再ルーティングし、未中断のトレーニングのためにノード間帯域幅を削減した。
しかし、劣化したサーバは標準リングアルゴリズムのクリティカルパスに留まり、全体の速度を遅くする。
非対称ネットワーク帯域におけるAllReduce完了時間に対する最初の情報理論的下界を示し、トラグラーが元の帯域の少なくとも半分を保持した場合、故障のない最適値に対する避けられないオーバーヘッドは、pGPUのO(1/p)のみであることを示す。
次に、この低いバウンダリにアプローチする4段パイプラインAllReduceアルゴリズムであるOpsCCを設計します。
SimAIの実験では、OptCCが既存のフォールトトレラント方式で残されているギャップを埋めていることが確認されている: ネットワークの障害によって最大50%の帯域幅が失われている場合、OptCCはAllReduceをNCCLのフォールトフリーリング性能の2-6%以内で完了し、最先端技術は最大57%のオーバーヘッドを発生させる。
関連論文リスト
- Efficient AllReduce with Stragglers [4.6987734780862604]
StragglARは、分散トレーニングと推論を高速化するAllReduceの並列アルゴリズムである。
StragglARは、大規模なGPUクラスタのための一般的な帯域幅効率アルゴリズムよりも2倍のスピードアップを実現している。
8-GPUサーバ上では、StragglARは最先端のAllReduceアルゴリズムよりも25%のスピードアップを提供する。
論文 参考訳(メタデータ) (2025-05-29T15:03:56Z) - Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。
本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。
この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文 参考訳(メタデータ) (2025-05-24T15:52:49Z) - Prioritising Interactive Flows in Data Center Networks With Central
Control [0.0]
データセンターネットワークにおける対話型フローの優先順位付けを支援する中央制御器に関する2つの問題に対処する。
論文の前半では,ソフトウェア定義ネットワークにおける渋滞制御の問題に対処する。
本稿では,ネットワークのグローバルビューを持つコントローラが,エンドTCPホストの混雑制御決定に積極的に参加するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-27T07:15:15Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - 1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training
with LAMB's Convergence Speed [17.953619054149378]
通信を圧縮した場合でも適応層学習率をサポートする新しい通信効率の高い1ビットラムを提案する。
バッチサイズが8Kから64KのBERT-Large事前学習タスクでは,NCCLベースのバックエンドを持つ1ビットLAMBが最大4.6倍の通信量削減を実現可能であることを示す。
論文 参考訳(メタデータ) (2021-04-13T10:07:49Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Joint Device-Edge Inference over Wireless Links with Pruning [20.45405359815043]
無線ネットワークエッジにおける効率的な推論のための共同特徴圧縮と伝送方式を提案する。
これはDeepJSCCとネットワークプルーニングを組み合わせた最初の作品であり、無線エッジ上の画像分類に応用されている。
論文 参考訳(メタデータ) (2020-03-04T12:06:11Z) - Discrimination-aware Network Pruning for Deep Model Compression [79.44318503847136]
既存のプルーニング手法は、スクラッチからスパーシティ制約で訓練するか、事前訓練されたモデルと圧縮されたモデルの特徴マップ間の再構成誤差を最小限に抑えるかのいずれかである。
本稿では,識別能力に実際に寄与するチャネルを選択するために,識別認識チャネルプルーニング (DCP) と呼ばれる簡便な手法を提案する。
画像分類と顔認識の両方の実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-01-04T07:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。