論文の概要: Characterizing GPU Resilience and Impact on AI/HPC Systems
- arxiv url: http://arxiv.org/abs/2503.11901v2
- Date: Mon, 24 Mar 2025 03:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:29:16.694046
- Title: Characterizing GPU Resilience and Impact on AI/HPC Systems
- Title(参考訳): AI/HPCシステムにおけるGPUレジリエンスと影響
- Authors: Shengkun Cui, Archit Patke, Ziheng Chen, Aditya Ranjan, Hung Nguyen, Phuong Cao, Saurabh Jha, Brett Bode, Gregory Bauer, Chandra Narayanaswami, Daby Sow, Catello Di Martino, Zbigniew T. Kalbarczyk, Ravishankar K. Iyer,
- Abstract要約: 現在600ペタプロビジョン以上のピーク計算スループットを持つ大規模AIシステムであるDeltaのGPU障害を特徴付ける。
この研究はGPUエラーに関する2年半のデータを用いている。
- 参考スコア(独自算出の注目度): 5.4879032865205986
- License:
- Abstract: In this study, we characterize GPU failures in Delta, the current large-scale AI system with over 600 petaflops of peak compute throughput. The system comprises GPU and non-GPU nodes with modern AI accelerators, such as NVIDIA A40, A100, and H100 GPUs. The study uses two and a half years of data on GPU errors. We evaluate the resilience of GPU hardware components to determine the vulnerability of different GPU components to failure and their impact on the GPU and node availability. We measure the key propagation paths in GPU hardware, GPU interconnect (NVLink), and GPU memory. Finally, we evaluate the impact of the observed GPU errors on user jobs. Our key findings are: (i) Contrary to common beliefs, GPU memory is over 30x more reliable than GPU hardware in terms of MTBE (mean time between errors). (ii) The newly introduced GSP (GPU System Processor) is the most vulnerable GPU hardware component. (iii) NVLink errors did not always lead to user job failure, and we attribute it to the underlying error detection and retry mechanisms employed. (iv) We show multiple examples of hardware errors originating from one of the key GPU hardware components, leading to application failure. (v) We project the impact of GPU node availability on larger scales with emulation and find that significant overprovisioning between 5-20% would be necessary to handle GPU failures. If GPU availability were improved to 99.9%, the overprovisioning would be reduced by 4x.
- Abstract(参考訳): 本研究では,600ペタフロロップスを超えるピークスループットを持つ現在の大規模AIシステムであるDeltaのGPU障害を特徴付ける。
このシステムは、NVIDIA A40、A100、H100 GPUなどの最新のAIアクセラレータを備えたGPUと非GPUノードで構成されている。
この研究はGPUエラーに関する2年半のデータを用いている。
我々は、GPUハードウェアコンポーネントのレジリエンスを評価し、異なるGPUコンポーネントの障害に対する脆弱性と、GPUとノードの可用性への影響を判定する。
我々は、GPUハードウェア、GPU相互接続(NVLink)、GPUメモリにおけるキー伝搬経路を測定する。
最後に、観測されたGPUエラーがユーザジョブに与える影響を評価する。
私たちの主要な発見は次のとおりです。
(i)一般的な信念とは対照的に、MTBE(エラー間の時間)に関しては、GPUメモリはGPUハードウェアの30倍以上の信頼性がある。
(ii)新しく導入されたGSP(GPU System Processor)は最も脆弱なGPUハードウェアコンポーネントである。
(iii)NVLinkのエラーが必ずしもユーザジョブの失敗に繋がる訳ではなく,その原因となるエラー検出と再試行機構に起因している。
(iv)主要なGPUハードウェアコンポーネントの1つから生じるハードウェアエラーの複数の例を示す。
(v)エミュレーションによる大規模スケールでのGPUノードの可用性の影響を予測し、5~20%の大幅なオーバープロビジョンがGPU障害の処理に必要であることを示す。
GPUの可用性が99.9%に向上すれば、オーバープロビジョンは4倍に削減される。
関連論文リスト
- Forecasting GPU Performance for Deep Learning Training and Inference [10.741682409837612]
NeuSightは、トレーニングと推論の両方のために、実際の実行を必要とせずに、見えないGPU上で、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークである。
NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。
121.4%と30.8%から2.3%に減少し、H100のトレーニングと推論のGPT3モデルの遅延を予測する。
論文 参考訳(メタデータ) (2024-07-18T18:47:52Z) - NeRF-XL: Scaling NeRFs with Multiple GPUs [72.75214892939411]
我々は、複数のGPUにまたがるニューラルラジアンス場(NeRF)を分散する原理的手法であるNeRF-XLを提案する。
パラメータ数を大きくして再構成品質を向上し,GPUの高速化を実現した。
我々は,25km2の都市部をカバーする258K画像を含む,これまでで最大規模のオープンソースデータセットMatrixCityを含む,さまざまなデータセットに対するNeRF-XLの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-24T21:43:15Z) - Turn Waste into Worth: Rectifying Top-$k$ Router of MoE [111.12838294273033]
MoEモデルは、その計算効率のために、大きな言語モデルのトレーニングに人気がある。
一般的に使用される上位$のルーティングメカニズムは、アンバランスなルーティングのために冗長性とメモリコストに悩まされる。
ドロップトークンとパディングに対処するため,GPU内整流とFill-in整流を含む整流化を提案する。
これらの組み合わせは、バニラトップ1ルータの精度を4.7%上回る優れた性能を達成する。
論文 参考訳(メタデータ) (2024-02-17T06:23:27Z) - Whispering Pixels: Exploiting Uninitialized Register Accesses in Modern GPUs [6.1255640691846285]
我々は、Apple、NVIDIA、Qualcommの3つの主要ベンダーの製品に脆弱性があることを実証する。
この脆弱性は、不透明なスケジューリングとレジスタ再マッピングアルゴリズムのために、敵に固有の課題をもたらす。
我々は,畳み込みニューラルネットワーク(CNN)の中間データに対する情報漏洩攻撃を実装し,大規模言語モデル(LLM)の出力を漏洩・再構成する攻撃能力を示す。
論文 参考訳(メタデータ) (2024-01-16T23:36:48Z) - WebGPU-SPY: Finding Fingerprints in the Sandbox through GPU Cache Attacks [0.7400926717561453]
ウェブブラウザにおけるマイクロアーキテクチャアタックのための新しいアタックベクトルを提案する。
我々は、被害者の活動をスパイするGPUの計算スタックに対するキャッシュサイドチャネルアタックを開発する。
我々は、GPUベースのキャッシュ攻撃が、上位100のWebサイトの指紋認証において、90の精度を達成することを実証した。
論文 参考訳(メタデータ) (2024-01-09T04:21:43Z) - Benchmarking GPUs on SVBRDF Extractor Model [0.0]
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能を区別する。
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能の差別化を試みた。
論文 参考訳(メタデータ) (2023-10-19T17:09:06Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Data-Efficient Instance Segmentation with a Single GPU [88.31338435907304]
我々は2021年のVIPriors Instance Challengeで使用したデータ効率のセグメンテーション手法を紹介した。
私たちのソリューションは、強力なツールボックスであるmmdetectionをベースにした、Swin Transformerの修正版です。
本手法は,全競技者の2位である0.592のAP@0.50:0.95(medium)を達成した。
論文 参考訳(メタデータ) (2021-10-01T07:36:20Z) - Out-of-Core GPU Gradient Boosting [0.0]
モデル精度やトレーニング時間を劣化させることなく、より大規模なデータセットを所定のGPUに適合させることができることを示す。
グラデーションブースティングのGPU実装としてはこれが初めてだ。
論文 参考訳(メタデータ) (2020-05-19T00:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。