論文の概要: Nonuniform-Tensor-Parallelism: Mitigating GPU failure impact for Scaled-up LLM Training
- arxiv url: http://arxiv.org/abs/2504.06095v1
- Date: Tue, 08 Apr 2025 14:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:28:22.741414
- Title: Nonuniform-Tensor-Parallelism: Mitigating GPU failure impact for Scaled-up LLM Training
- Title(参考訳): 非一様テンソルパラレル性:スケールアップLDMトレーニングにおけるGPU故障の影響の緩和
- Authors: Daiyaan Arfeen, Dheevatsa Mudigere, Ankit More, Bhargava Gopireddy, Ahmet Inci, Gregory R. Ganger,
- Abstract要約: 我々は,このGPU故障の増幅的影響を軽減するために,非一様テンソル並列性(NTP)を提案する。
また、故障を経験したスケールアップドメインの電力供給を維持するために、電気的・熱的能力の向上を図ったラック設計を提案する。
- 参考スコア(独自算出の注目度): 3.43728657617475
- License:
- Abstract: LLM training is scaled up to 10Ks of GPUs by a mix of data-(DP) and model-parallel (MP) execution. Critical to achieving efficiency is tensor-parallel (TP; a form of MP) execution within tightly-coupled subsets of GPUs, referred to as a scale-up domain, and the larger the scale-up domain the better the performance. New datacenter architectures are emerging with more GPUs able to be tightly-coupled in a scale-up domain, such as moving from 8 GPUs to 72 GPUs connected via NVLink. Unfortunately, larger scale-up domains increase the blast-radius of failures, with a failure of single GPU potentially impacting TP execution on the full scale-up domain, which can degrade overall LLM training throughput dramatically. With as few as 0.1% of GPUs being in a failed state, a high TP-degree job can experience nearly 10% reduction in LLM training throughput. We propose nonuniform-tensor-parallelism (NTP) to mitigate this amplified impact of GPU failures. In NTP, a DP replica that experiences GPU failures operates at a reduced TP degree, contributing throughput equal to the percentage of still-functional GPUs. We also propose a rack-design with improved electrical and thermal capabilities in order to sustain power-boosting of scale-up domains that have experienced failures; combined with NTP, this can allow the DP replica with the reduced TP degree (i.e., with failed GPUs) to keep up with the others, thereby achieving near-zero throughput loss for large-scale LLM training.
- Abstract(参考訳): LLMトレーニングは、データ-(DP)とモデル-パラレル(MP)実行の混合により、GPUの10Kまでスケールアップされる。
効率を達成するためには、GPUの密結合されたサブセット内でのテンソルパラレル(TP、MPの形式)の実行が重要であり、スケールアップドメインが大きくなるほどパフォーマンスが向上する。
8つのGPUから72のGPUにNVLink経由で接続するなど、より多くのGPUをスケールアップドメインで密結合することが可能な、新たなデータセンタアーキテクチャが登場している。
残念なことに、より大きなスケールアップドメインは、単一GPUの失敗がフルスケールアップドメインでのTP実行に影響を及ぼし、全体のLLMトレーニングスループットが劇的に低下する可能性があるため、障害の爆発半径を増大させる。
GPUの0.1%が故障した状態では、高いTP度ジョブはLLMトレーニングスループットを10%近く削減することができる。
本稿では,このGPU故障の増幅的影響を軽減するために,非一様テンソル並列性(NTP)を提案する。
NTPでは、GPU障害を経験するDPレプリカがTPのレベルを下げて動作し、まだ機能していないGPUの比率に匹敵するスループットに寄与する。
NTPと組み合わせることで、DPレプリカをTP度を減らし(つまり、GPUが故障した)、他のものに追いつくことができ、大規模なLCMトレーニングにおいてほぼゼロに近いスループット損失を達成できる。
関連論文リスト
- Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。
本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文 参考訳(メタデータ) (2025-02-12T06:05:52Z) - Characterization of GPU TEE Overheads in Distributed Data Parallel ML Training [7.236249885667945]
信頼できるコンピューティング(CC)または信頼できる実行エンクレーブ(TEE)は、クラウドでセキュアなコンピューティングを実現するための最も一般的なアプローチである。
NVIDIAによるGPU TEEの導入により、モデルウェイトやデータをクラウドプロバイダにリークすることなく、マシンラーニング(ML)モデルをトレーニングすることが可能になった。
本稿では,GPU TEEを用いた分散データ並列(DDP)MLトレーニングの実行に伴う性能オーバーヘッドについて,詳細な解析を行った。
論文 参考訳(メタデータ) (2025-01-20T22:23:50Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。
本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。
実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-05T13:01:36Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Nimble: Lightweight and Parallel GPU Task Scheduling for Deep Learning [7.43260596107574]
我々は、最小のスケジューリングオーバーヘッドでタスクを並列に実行する、ディープラーニング(DL)実行エンジンであるNimbleを提案する。
Nableは、単一のGPUで複数のGPUストリームを活用することで、GPUタスクの実行を自動的に並列化する。
PyTorchと比較して、Nimbleは推論とトレーニングを最大22.34$times$と3.61$times$で高速化している。
論文 参考訳(メタデータ) (2020-12-04T17:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。