Fugu-MT 論文翻訳(概要): Characterizing GPU Resilience and Impact on AI/HPC Systems

論文の概要: Characterizing GPU Resilience and Impact on AI/HPC Systems

arxiv url: http://arxiv.org/abs/2503.11901v2
Date: Mon, 24 Mar 2025 03:52:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 14:21:41.301322
Title: Characterizing GPU Resilience and Impact on AI/HPC Systems
Title（参考訳）: AI/HPCシステムにおけるGPUレジリエンスと影響
Authors: Shengkun Cui, Archit Patke, Ziheng Chen, Aditya Ranjan, Hung Nguyen, Phuong Cao, Saurabh Jha, Brett Bode, Gregory Bauer, Chandra Narayanaswami, Daby Sow, Catello Di Martino, Zbigniew T. Kalbarczyk, Ravishankar K. Iyer,
Abstract要約: 現在600ペタプロビジョン以上のピーク計算スループットを持つ大規模AIシステムであるDeltaのGPU障害を特徴付ける。この研究はGPUエラーに関する2年半のデータを用いている。
参考スコア（独自算出の注目度）: 5.4879032865205986
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this study, we characterize GPU failures in Delta, the current large-scale AI system with over 600 petaflops of peak compute throughput. The system comprises GPU and non-GPU nodes with modern AI accelerators, such as NVIDIA A40, A100, and H100 GPUs. The study uses two and a half years of data on GPU errors. We evaluate the resilience of GPU hardware components to determine the vulnerability of different GPU components to failure and their impact on the GPU and node availability. We measure the key propagation paths in GPU hardware, GPU interconnect (NVLink), and GPU memory. Finally, we evaluate the impact of the observed GPU errors on user jobs. Our key findings are: (i) Contrary to common beliefs, GPU memory is over 30x more reliable than GPU hardware in terms of MTBE (mean time between errors). (ii) The newly introduced GSP (GPU System Processor) is the most vulnerable GPU hardware component. (iii) NVLink errors did not always lead to user job failure, and we attribute it to the underlying error detection and retry mechanisms employed. (iv) We show multiple examples of hardware errors originating from one of the key GPU hardware components, leading to application failure. (v) We project the impact of GPU node availability on larger scales with emulation and find that significant overprovisioning between 5-20% would be necessary to handle GPU failures. If GPU availability were improved to 99.9%, the overprovisioning would be reduced by 4x.
Abstract（参考訳）: 本研究では,600ペタフロロップスを超えるピークスループットを持つ現在の大規模AIシステムであるDeltaのGPU障害を特徴付ける。このシステムは、NVIDIA A40、A100、H100 GPUなどの最新のAIアクセラレータを備えたGPUと非GPUノードで構成されている。この研究はGPUエラーに関する2年半のデータを用いている。我々は、GPUハードウェアコンポーネントのレジリエンスを評価し、異なるGPUコンポーネントの障害に対する脆弱性と、GPUとノードの可用性への影響を判定する。我々は、GPUハードウェア、GPU相互接続(NVLink)、GPUメモリにおけるキー伝搬経路を測定する。最後に、観測されたGPUエラーがユーザジョブに与える影響を評価する。私たちの主要な発見は次のとおりです。 (i)一般的な信念とは対照的に、MTBE(エラー間の時間)に関しては、GPUメモリはGPUハードウェアの30倍以上の信頼性がある。 (ii)新しく導入されたGSP(GPU System Processor)は最も脆弱なGPUハードウェアコンポーネントである。 (iii)NVLinkのエラーが必ずしもユーザジョブの失敗に繋がる訳ではなく,その原因となるエラー検出と再試行機構に起因している。 (iv)主要なGPUハードウェアコンポーネントの1つから生じるハードウェアエラーの複数の例を示す。 (v)エミュレーションによる大規模スケールでのGPUノードの可用性の影響を予測し、5～20%の大幅なオーバープロビジョンがGPU障害の処理に必要であることを示す。 GPUの可用性が99.9%に向上すれば、オーバープロビジョンは4倍に削減される。

関連論文リスト

GPU in the Blind Spot: Overlooked Security Risks in Transportation [3.3296812191509786]
この記事では、輸送サイバーセキュリティにおける重要な盲点として、GPUセキュリティを強調します。この懸念をサポートするために、重要なAIワークロードに対するステルスな不正暗号マイナーの影響を示すケーススタディも提示されている。
論文参考訳（メタデータ） (2025-08-04T02:25:43Z)
Distributed Equivariant Graph Neural Networks for Large-Scale Electronic Structure Prediction [76.62155593340763]
密度汎関数理論(DFT)データに基づいて訓練された等価グラフニューラルネットワーク(eGNN)は、前例のない規模で電子構造予測を行う可能性がある。しかし、このタスクに必要なグラフ表現は密結合である傾向がある。本稿では,直接GPU通信を利用する分散eGNNの実装と,入力グラフの分割戦略を提案する。
論文参考訳（メタデータ） (2025-07-04T23:53:47Z)
GPUMC: A Stateless Model Checker for GPU Weak Memory Concurrency [3.1882747895372217]
GPUMCは、スコープドRC11弱いメモリモデルの下でGPU共有メモリプログラムの正しさをチェックするステートレスモデルチェッカーである。ベンチマークとリアルタイムGPUプログラムを用いてGPUMCを評価する。
論文参考訳（メタデータ） (2025-05-26T16:47:44Z)
HPU: High-Bandwidth Processing Unit for Scalable, Cost-effective LLM Inference via GPU Co-processing [3.50604837678178]
本稿では,大容量LLM推論時のGPUリソース利用量を向上させるメモリ集約型コプロセッサを提案する。メモリバウンドな操作をオフロードすることで、HPUはGPUが計算集約的なタスクに集中でき、全体的な効率が向上する。我々の新しいGPU-HPUヘテロジニアスシステムは、GPUのみのシステムよりも最大4.1倍の性能向上と4.6倍のエネルギー効率向上を示す。
論文参考訳（メタデータ） (2025-04-18T03:31:08Z)
Nonuniform-Tensor-Parallelism: Mitigating GPU failure impact for Scaled-up LLM Training [3.43728657617475]
我々は,このGPU故障の増幅的影響を軽減するために,非一様テンソル並列性(NTP)を提案する。また、故障を経験したスケールアップドメインの電力供給を維持するために、電気的・熱的能力の向上を図ったラック設計を提案する。
論文参考訳（メタデータ） (2025-04-08T14:35:40Z)
HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。 HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文参考訳（メタデータ） (2025-02-18T06:26:05Z)
Forecasting GPU Performance for Deep Learning Training and Inference [10.741682409837612]
NeuSightは、トレーニングと推論の両方のために、実際の実行を必要とせずに、見えないGPU上で、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークである。 NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。 121.4%と30.8%から2.3%に減少し、H100のトレーニングと推論のGPT3モデルの遅延を予測する。
論文参考訳（メタデータ） (2024-07-18T18:47:52Z)
NeRF-XL: Scaling NeRFs with Multiple GPUs [72.75214892939411]
我々は、複数のGPUにまたがるニューラルラジアンス場(NeRF)を分散する原理的手法であるNeRF-XLを提案する。パラメータ数を大きくして再構成品質を向上し,GPUの高速化を実現した。我々は,25km2の都市部をカバーする258K画像を含む,これまでで最大規模のオープンソースデータセットMatrixCityを含む,さまざまなデータセットに対するNeRF-XLの有効性を実証した。
論文参考訳（メタデータ） (2024-04-24T21:43:15Z)
Turn Waste into Worth: Rectifying Top-$k$ Router of MoE [111.12838294273033]
MoEモデルは、その計算効率のために、大きな言語モデルのトレーニングに人気がある。一般的に使用される上位$のルーティングメカニズムは、アンバランスなルーティングのために冗長性とメモリコストに悩まされる。ドロップトークンとパディングに対処するため,GPU内整流とFill-in整流を含む整流化を提案する。これらの組み合わせは、バニラトップ1ルータの精度を4.7%上回る優れた性能を達成する。
論文参考訳（メタデータ） (2024-02-17T06:23:27Z)
Whispering Pixels: Exploiting Uninitialized Register Accesses in Modern GPUs [6.1255640691846285]
我々は、Apple、NVIDIA、Qualcommの3つの主要ベンダーの製品に脆弱性があることを実証する。この脆弱性は、不透明なスケジューリングとレジスタ再マッピングアルゴリズムのために、敵に固有の課題をもたらす。我々は,畳み込みニューラルネットワーク(CNN)の中間データに対する情報漏洩攻撃を実装し,大規模言語モデル(LLM)の出力を漏洩・再構成する攻撃能力を示す。
論文参考訳（メタデータ） (2024-01-16T23:36:48Z)
WebGPU-SPY: Finding Fingerprints in the Sandbox through GPU Cache Attacks [0.7400926717561453]
ウェブブラウザにおけるマイクロアーキテクチャアタックのための新しいアタックベクトルを提案する。我々は、被害者の活動をスパイするGPUの計算スタックに対するキャッシュサイドチャネルアタックを開発する。我々は、GPUベースのキャッシュ攻撃が、上位100のWebサイトの指紋認証において、90の精度を達成することを実証した。
論文参考訳（メタデータ） (2024-01-09T04:21:43Z)
FULL-W2V: Fully Exploiting Data Reuse for W2V on GPU-Accelerated Systems [5.572152653851948]
FULL-W2Vは、W2Vアルゴリズムにおけるデータ再利用の機会を利用して、低メモリレベルへのアクセスを減らし、時間的局所性を改善する。我々のプロトタイプ実装では、Nvidia Pascal P100からVolta V100への移植時に2.97倍の高速化を実現し、同じ埋め込み品質のV100カードでは、最先端の5.72倍の性能を発揮する。
論文参考訳（メタデータ） (2023-12-12T21:22:07Z)
Benchmarking GPUs on SVBRDF Extractor Model [0.0]
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能を区別する。本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能の差別化を試みた。
論文参考訳（メタデータ） (2023-10-19T17:09:06Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文参考訳（メタデータ） (2022-11-19T09:57:01Z)
An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文参考訳（メタデータ） (2022-09-13T14:13:06Z)
EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。 EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2022-05-29T20:07:23Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
Data-Efficient Instance Segmentation with a Single GPU [88.31338435907304]
我々は2021年のVIPriors Instance Challengeで使用したデータ効率のセグメンテーション手法を紹介した。私たちのソリューションは、強力なツールボックスであるmmdetectionをベースにした、Swin Transformerの修正版です。本手法は,全競技者の2位である0.592のAP@0.50:0.95(medium)を達成した。
論文参考訳（メタデータ） (2021-10-01T07:36:20Z)
Out-of-Core GPU Gradient Boosting [0.0]
モデル精度やトレーニング時間を劣化させることなく、より大規模なデータセットを所定のGPUに適合させることができることを示す。グラデーションブースティングのGPU実装としてはこれが初めてだ。
論文参考訳（メタデータ） (2020-05-19T00:41:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。