論文の概要: Training LLMs with Fault Tolerant HSDP on 100,000 GPUs
- arxiv url: http://arxiv.org/abs/2602.00277v1
- Date: Fri, 30 Jan 2026 19:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.090422
- Title: Training LLMs with Fault Tolerant HSDP on 100,000 GPUs
- Title(参考訳): 10万GPU上での耐故障性HSDPを用いたLDMのトレーニング
- Authors: Omkar Salpekar, Rohan Varma, Kenny Yu, Vladimir Ivanov, Yang Wang, Ahmed Sharif, Min Si, Shawn Xu, Feng Tian, Shengbao Zheng, Tristan Rice, Ankush Garg, Shangfu Peng, Shreyas Siravara, Wenyin Fu, Rodrigo de Castro, Adithya Gangidi, Andrey Obraztsov, Sharan Narang, Sergey Edunov, Maxim Naumov, Chunqiang Tang, Mathew Oldham,
- Abstract要約: 同期トレーニングは、頻繁な障害と長い回復時間により、効率が低下する。
我々は、FT-HSDP(Fault Tolerant Hybrid-Shared Data Parallelism)を提案する。
FT-HSDPはフォールトトレランスの単位としてデータ並列レプリカを使用する。
- 参考スコア(独自算出の注目度): 9.97532556913539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale training systems typically use synchronous training, requiring all GPUs to be healthy simultaneously. In our experience training on O(100K) GPUs, synchronous training results in a low efficiency due to frequent failures and long recovery time. To address this problem, we propose a novel training paradigm, Fault Tolerant Hybrid-Shared Data Parallelism (FT-HSDP). FT-HSDP uses data parallel replicas as units of fault tolerance. When failures occur, only a single data-parallel replica containing the failed GPU or server is taken offline and restarted, while the other replicas continue training. To realize this idea at scale, FT-HSDP incorporates several techniques: 1) We introduce a Fault Tolerant All Reduce (FTAR) protocol for gradient exchange across data parallel replicas. FTAR relies on the CPU to drive the complex control logic for tasks like adding or removing participants dynamically, and relies on GPU to perform data transfer for best performance. 2) We introduce a non-blocking catch-up protocol, allowing a recovering replica to join training with minimal stall. Compared with fully synchronous training at O(100K) GPUs, FT-HSDP can reduce the stall time due to failure recovery from 10 minutes to 3 minutes, increasing effective training time from 44\% to 80\%. We further demonstrate that FT-HSDP's asynchronous recovery does not bring any meaning degradation to the accuracy of the result model.
- Abstract(参考訳): 大規模なトレーニングシステムは一般的に同期トレーニングを使用し、すべてのGPUを同時に健全にする必要がある。
O(100K)GPUでのトレーニング経験では、頻繁な故障と長時間の回復により同期トレーニングが低効率になる。
この問題に対処するために,新しいトレーニングパラダイムであるFault Tolerant Hybrid-Shared Data Parallelism (FT-HSDP)を提案する。
FT-HSDPはフォールトトレランスの単位としてデータ並列レプリカを使用する。
障害が発生した場合、フェールしたGPUやサーバを含む単一のデータ並列レプリカのみがオフラインで再起動され、他のレプリカはトレーニングを継続する。
このアイデアを大規模に実現するために、FT-HSDPはいくつかのテクニックを取り入れている。
1) データ並列レプリカ間の勾配交換のためのFTARプロトコルを導入する。
FTARはCPUに依存して、参加者の追加や削除といったタスクの複雑な制御ロジックを動的に駆動する。
2)ノンブロッキング・キャッチアッププロトコルを導入し,リカバリレプリカを最小限のストールでトレーニングに参加できるようにする。
O(100K) GPUの完全同期トレーニングと比較して、FT-HSDPは障害回復による停止時間を10分から3分に短縮し、効果的なトレーニング時間を44\%から80\%に向上させることができる。
さらに,FT-HSDPの非同期回復は,結果モデルの精度に意味のある劣化をもたらすものではないことを実証した。
関連論文リスト
- Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。
本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:19:22Z) - AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [23.24949857136035]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。
本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文 参考訳(メタデータ) (2025-05-30T07:18:25Z) - Faster Multi-GPU Training with PPLL: A Pipeline Parallelism Framework Leveraging Local Learning [8.628231789161577]
本稿では,ローカル学習アルゴリズムを活用する新しいフレームワークPPLL(Pipeline Parallelism based on Local Learning)を提案する。
GPU間のデータ転送を管理するキューを利用することで、PPLLはシームレスなクロスGPU通信を保証する。
その結果,PPLLは従来のパイプライン並列処理と同等あるいはそれ以上の訓練速度を達成しつつ,局所的な学習手法の学習速度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-19T08:09:18Z) - LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。
本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。
実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-05T13:01:36Z) - ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation [2.0181279529015925]
ReCycleは、障害発生時の効率的なトレーニング用に設計されたシステムである。
分散トレーニングシステムに固有の機能的冗長性を活用する。
複数の障害で高いトレーニングスループットを実現していることを示す。
論文 参考訳(メタデータ) (2024-05-22T21:35:56Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。