論文の概要: Characterizing GPU Resilience and Impact on AI/HPC Systems
- arxiv url: http://arxiv.org/abs/2503.11901v3
- Date: Sat, 28 Jun 2025 06:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 19:22:02.047533
- Title: Characterizing GPU Resilience and Impact on AI/HPC Systems
- Title(参考訳): AI/HPCシステムにおけるGPUレジリエンスと影響
- Authors: Shengkun Cui, Archit Patke, Hung Nguyen, Aditya Ranjan, Ziheng Chen, Phuong Cao, Brett Bode, Gregory Bauer, Catello Di Martino, Saurabh Jha, Chandra Narayanaswami, Daby Sow, Zbigniew T. Kalbarczyk, Ravishankar K. Iyer,
- Abstract要約: 本研究では,大規模AIシステムデルタHPCにおけるGPUレジリエンスを特徴付ける。
2.5年間の運用データ(1170万GPU時間)をGPUエラーに使用しました。
- 参考スコア(独自算出の注目度): 5.4879032865205986
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study characterizes GPU resilience in Delta HPC, a large-scale AI system that consists of 1,056 A100 and H100 GPUs, with over 1,300 petaflops of peak throughput. Delta HPC is operated by the National Center for Supercomputing Applications (NCSA) at the University of Illinois Urbana-Champaign. We used 2.5 years of operational data (11.7 million GPU hours) on GPU errors. Our major findings include: (i) H100 GPU memory resilience is worse than A100 GPU memory, with 3.2x lower per-GPU MTBE for memory errors, (ii) The GPU memory error-recovery mechanisms on H100 GPUs are insufficient to handle the increased memory capacity, (iii) H100 GPUs demonstrate significantly improved GPU hardware resilience over A100 GPUs with respect to critical hardware components, (iv) GPU errors on both A100 and H100 GPUs frequently result in job failures due to the lack of robust recovery mechanisms at the application level, and (v) We project the impact of GPU node availability on larger-scales and find that significant overprovisioning of 5% is necessary to handle GPU failures.
- Abstract(参考訳): 本研究では,最大スループットが1300ペタフロップスを超える1,056 A100とH100 GPUからなる大規模AIシステムであるDelta HPCのGPUレジリエンスを特徴付ける。
デルタHPCはイリノイ大学アーバナ・シャンペーン校のNational Center for Supercomputing Applications (NCSA)によって運営されている。
2.5年間の運用データ(1170万GPU時間)をGPUエラーに使用しました。
主な発見は以下のとおりである。
(i)H100 GPUメモリレジリエンスはA100 GPUメモリよりも悪く、メモリエラーに対してGPU毎MTBEの3.2倍低い。
(II)H100 GPU上のGPUメモリエラー回復機構は、メモリ容量の増加に対応するには不十分である。
3) H100 GPUは、重要なハードウェアコンポーネントに関して、A100 GPUに対するGPUハードウェアのレジリエンスを著しく改善したことを示す。
(iv)A100とH100の両方のGPUエラーは、アプリケーションレベルで堅牢なリカバリ機構が欠如しているため、頻繁にジョブ障害を引き起こします。
(v)GPUノードの可用性が大規模化に与える影響を予測し、GPU障害に対処するには5%の大幅なオーバープロビジョンが必要であることを見出した。
関連論文リスト
- GPU in the Blind Spot: Overlooked Security Risks in Transportation [3.3296812191509786]
この記事では、輸送サイバーセキュリティにおける重要な盲点として、GPUセキュリティを強調します。
この懸念をサポートするために、重要なAIワークロードに対するステルスな不正暗号マイナーの影響を示すケーススタディも提示されている。
論文 参考訳(メタデータ) (2025-08-04T02:25:43Z) - Distributed Equivariant Graph Neural Networks for Large-Scale Electronic Structure Prediction [76.62155593340763]
密度汎関数理論(DFT)データに基づいて訓練された等価グラフニューラルネットワーク(eGNN)は、前例のない規模で電子構造予測を行う可能性がある。
しかし、このタスクに必要なグラフ表現は密結合である傾向がある。
本稿では,直接GPU通信を利用する分散eGNNの実装と,入力グラフの分割戦略を提案する。
論文 参考訳(メタデータ) (2025-07-04T23:53:47Z) - GPUMC: A Stateless Model Checker for GPU Weak Memory Concurrency [3.1882747895372217]
GPUMCは、スコープドRC11弱いメモリモデルの下でGPU共有メモリプログラムの正しさをチェックするステートレスモデルチェッカーである。
ベンチマークとリアルタイムGPUプログラムを用いてGPUMCを評価する。
論文 参考訳(メタデータ) (2025-05-26T16:47:44Z) - HPU: High-Bandwidth Processing Unit for Scalable, Cost-effective LLM Inference via GPU Co-processing [3.50604837678178]
本稿では,大容量LLM推論時のGPUリソース利用量を向上させるメモリ集約型コプロセッサを提案する。
メモリバウンドな操作をオフロードすることで、HPUはGPUが計算集約的なタスクに集中でき、全体的な効率が向上する。
我々の新しいGPU-HPUヘテロジニアスシステムは、GPUのみのシステムよりも最大4.1倍の性能向上と4.6倍のエネルギー効率向上を示す。
論文 参考訳(メタデータ) (2025-04-18T03:31:08Z) - Nonuniform-Tensor-Parallelism: Mitigating GPU failure impact for Scaled-up LLM Training [3.43728657617475]
我々は,このGPU故障の増幅的影響を軽減するために,非一様テンソル並列性(NTP)を提案する。
また、故障を経験したスケールアップドメインの電力供給を維持するために、電気的・熱的能力の向上を図ったラック設計を提案する。
論文 参考訳(メタデータ) (2025-04-08T14:35:40Z) - HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - Forecasting GPU Performance for Deep Learning Training and Inference [10.741682409837612]
NeuSightは、トレーニングと推論の両方のために、実際の実行を必要とせずに、見えないGPU上で、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークである。
NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。
121.4%と30.8%から2.3%に減少し、H100のトレーニングと推論のGPT3モデルの遅延を予測する。
論文 参考訳(メタデータ) (2024-07-18T18:47:52Z) - NeRF-XL: Scaling NeRFs with Multiple GPUs [72.75214892939411]
我々は、複数のGPUにまたがるニューラルラジアンス場(NeRF)を分散する原理的手法であるNeRF-XLを提案する。
パラメータ数を大きくして再構成品質を向上し,GPUの高速化を実現した。
我々は,25km2の都市部をカバーする258K画像を含む,これまでで最大規模のオープンソースデータセットMatrixCityを含む,さまざまなデータセットに対するNeRF-XLの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-24T21:43:15Z) - Turn Waste into Worth: Rectifying Top-$k$ Router of MoE [111.12838294273033]
MoEモデルは、その計算効率のために、大きな言語モデルのトレーニングに人気がある。
一般的に使用される上位$のルーティングメカニズムは、アンバランスなルーティングのために冗長性とメモリコストに悩まされる。
ドロップトークンとパディングに対処するため,GPU内整流とFill-in整流を含む整流化を提案する。
これらの組み合わせは、バニラトップ1ルータの精度を4.7%上回る優れた性能を達成する。
論文 参考訳(メタデータ) (2024-02-17T06:23:27Z) - Whispering Pixels: Exploiting Uninitialized Register Accesses in Modern GPUs [6.1255640691846285]
我々は、Apple、NVIDIA、Qualcommの3つの主要ベンダーの製品に脆弱性があることを実証する。
この脆弱性は、不透明なスケジューリングとレジスタ再マッピングアルゴリズムのために、敵に固有の課題をもたらす。
我々は,畳み込みニューラルネットワーク(CNN)の中間データに対する情報漏洩攻撃を実装し,大規模言語モデル(LLM)の出力を漏洩・再構成する攻撃能力を示す。
論文 参考訳(メタデータ) (2024-01-16T23:36:48Z) - WebGPU-SPY: Finding Fingerprints in the Sandbox through GPU Cache Attacks [0.7400926717561453]
ウェブブラウザにおけるマイクロアーキテクチャアタックのための新しいアタックベクトルを提案する。
我々は、被害者の活動をスパイするGPUの計算スタックに対するキャッシュサイドチャネルアタックを開発する。
我々は、GPUベースのキャッシュ攻撃が、上位100のWebサイトの指紋認証において、90の精度を達成することを実証した。
論文 参考訳(メタデータ) (2024-01-09T04:21:43Z) - FULL-W2V: Fully Exploiting Data Reuse for W2V on GPU-Accelerated Systems [5.572152653851948]
FULL-W2Vは、W2Vアルゴリズムにおけるデータ再利用の機会を利用して、低メモリレベルへのアクセスを減らし、時間的局所性を改善する。
我々のプロトタイプ実装では、Nvidia Pascal P100からVolta V100への移植時に2.97倍の高速化を実現し、同じ埋め込み品質のV100カードでは、最先端の5.72倍の性能を発揮する。
論文 参考訳(メタデータ) (2023-12-12T21:22:07Z) - Benchmarking GPUs on SVBRDF Extractor Model [0.0]
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能を区別する。
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能の差別化を試みた。
論文 参考訳(メタデータ) (2023-10-19T17:09:06Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Data-Efficient Instance Segmentation with a Single GPU [88.31338435907304]
我々は2021年のVIPriors Instance Challengeで使用したデータ効率のセグメンテーション手法を紹介した。
私たちのソリューションは、強力なツールボックスであるmmdetectionをベースにした、Swin Transformerの修正版です。
本手法は,全競技者の2位である0.592のAP@0.50:0.95(medium)を達成した。
論文 参考訳(メタデータ) (2021-10-01T07:36:20Z) - Out-of-Core GPU Gradient Boosting [0.0]
モデル精度やトレーニング時間を劣化させることなく、より大規模なデータセットを所定のGPUに適合させることができることを示す。
グラデーションブースティングのGPU実装としてはこれが初めてだ。
論文 参考訳(メタデータ) (2020-05-19T00:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。