論文の概要: Reliable and Resilient Collective Communication Library for LLM Training and Serving
- arxiv url: http://arxiv.org/abs/2512.25059v1
- Date: Wed, 31 Dec 2025 18:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.746286
- Title: Reliable and Resilient Collective Communication Library for LLM Training and Serving
- Title(参考訳): LLM訓練と就労のための信頼性・信頼性の高い集団コミュニケーションライブラリ
- Authors: Wei Wang, Nengneng Yu, Sixian Xiong, Zaoxing Liu,
- Abstract要約: マルチNICハードウェア用のフォールトトレラント通信ライブラリであるR$2$CCLを提案する。
R$2$CCLは、高速な接続マイグレーション、帯域幅対応ロード再分配、および障害時の進捗を維持するための回復力のある集合アルゴリズムを実行する。
実験によると、R$2$CCLはNIC障害に対して非常に堅牢であり、トレーニングは1%未満、推論オーバーヘッドは3%未満である。
- 参考スコア(独自算出の注目度): 5.400838203617311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern ML training and inference now span tens to tens of thousands of GPUs, where network faults can waste 10--15\% of GPU hours due to slow recovery. Common network errors and link fluctuations trigger timeouts that often terminate entire jobs, forcing expensive checkpoint rollback during training and request reprocessing during inference. We present R$^2$CCL, a fault-tolerant communication library that provides lossless, low-overhead failover by exploiting multi-NIC hardware. R$^2$CCL performs rapid connection migration, bandwidth-aware load redistribution, and resilient collective algorithms to maintain progress under failures. We evaluate R$^2$CCL on two 8-GPU H100 InfiniBand servers and via large-scale ML simulators modeling hundreds of GPUs with diverse failure patterns. Experiments show that R$^2$CCL is highly robust to NIC failures, incurring less than 1\% training and less than 3\% inference overheads. R$^2$CCL outperforms baselines AdapCC and DejaVu by 12.18$\times$ and 47$\times$, respectively.
- Abstract(参考訳): 現代のMLトレーニングと推論は数万から数万のGPUにまたがっており、ネットワーク障害は回復が遅いために10~15%のGPU時間を浪費することができる。
一般的なネットワークエラーとリンクのゆらぎは、ジョブ全体を停止するタイムアウトをトリガーし、トレーニング中に高価なチェックポイントロールバックを強制し、推論中に要求を再処理する。
R$^2$CCLは、マルチNICハードウェアを利用して、損失のない低オーバヘッドフェールオーバを提供する耐障害性通信ライブラリである。
R$^2$CCLは、高速な接続マイグレーション、帯域幅対応ロード再分配、および障害時の進捗を維持するための回復力のある集合アルゴリズムを実行する。
我々は,2つの8-GPU H100 InfiniBandサーバ上でのR$^2$CCLと,多様な障害パターンを持つ数百のGPUをモデル化した大規模MLシミュレータを用いて評価を行った。
実験によると、R$^2$CCLはNIC障害に対して非常に堅牢であり、トレーニングは1\%未満、推論オーバーヘッドは3\%未満である。
R$^2$CCLは、それぞれAdapCCとDejaVuを12.18$\times$と47$\times$で上回る。
関連論文リスト
- DataStates-LLM: Lazy Asynchronous Checkpointing for Large Language Models [3.3484462092188005]
モデルと状態シャードを構成するテンソルが、長期間にわたって不変であるという事実を生かして、遅延非同期マルチレベルアプローチを導入する。
その結果、48$times$より高速なチェックポイントと2.2$times$より高速なエンドツーエンドトレーニングを実現した。
論文 参考訳(メタデータ) (2024-06-15T18:30:40Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation [2.0181279529015925]
ReCycleは、障害発生時の効率的なトレーニング用に設計されたシステムである。
分散トレーニングシステムに固有の機能的冗長性を活用する。
複数の障害で高いトレーニングスループットを実現していることを示す。
論文 参考訳(メタデータ) (2024-05-22T21:35:56Z) - A Quadratic Synchronization Rule for Distributed Deep Learning [66.68264684667562]
本研究は、擬似同期規則(QSR)と呼ばれる$H$を決定するための理論基底法を提案する。
ResNet と ViT の実験により、QSR を用いた局所勾配法は、他の同期戦略よりもテスト精度を一貫して向上することが示された。
論文 参考訳(メタデータ) (2023-10-22T21:38:57Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - Highly Available Data Parallel ML training on Mesh Networks [0.34265828682659694]
メッシュネットワークでは、障害がメッシュに穴をあけるため、これは難しい。
故障したチップを2次元メッシュ上で全トラフィックをルーティングする手法を提案する。
論文 参考訳(メタデータ) (2020-11-06T21:36:16Z) - Communication Contention Aware Scheduling of Multiple Deep Learning
Training Jobs [17.45154289084637]
我々は、DDLジョブをDAG(Directed Acyclic Graphs)として整理する新しいDDLジョブスケジューリングフレームワークを確立する。
次に、GPU利用のバランスを保ち、各ジョブに割り当てられたGPUを統合するための効率的なアルゴリズム LWF-$kappa$ を提案する。
LWF-$kappa$は、古典的なファーストフィットアルゴリズムよりも最大$1.59タイムで改善できることを示す。
論文 参考訳(メタデータ) (2020-02-24T07:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。