論文の概要: When GPUs Fail Quietly: Observability-Aware Early Warning Beyond Numeric Telemetry
- arxiv url: http://arxiv.org/abs/2603.28781v1
- Date: Tue, 17 Mar 2026 13:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.13479
- Title: When GPUs Fail Quietly: Observability-Aware Early Warning Beyond Numeric Telemetry
- Title(参考訳): GPUが急速に機能停止:数値テレメトリを超えた早期警告を可観測性で認識する
- Authors: Michael Bidollahkhani, Freja Nordsiek, Julian M. Kunkel,
- Abstract要約: GPUノードは現代のHPCおよびAIワークロードの中心であるが、多くの障害が即時障害として現れない。
本稿では,GPUテレメトリにおける利用感熱ドリフトシグネチャを共同でモデル化した,可観測性を考慮した早期警戒フレームワークを提案する。
その結果, 剥離故障は最小の数値前駆体を示し, 構造的テレメトリ崩壊によって主に観測可能であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GPU nodes are central to modern HPC and AI workloads, yet many failures do not manifest as immediate hard faults. While some instabilities emerge gradually as weak thermal or efficiency drift, a significant class occurs abruptly with little or no numeric precursor. In these detachment-class failures, GPUs become unavailable at the driver or interconnect level and the dominant observable signal is structural, including disappearance of device metrics and degradation of monitoring payload integrity. This paper proposes an observability-aware early-warning framework that jointly models (i) utilization-aware thermal drift signatures in GPU telemetry and (ii) monitoring-pipeline degradation indicators such as scrape latency increase, sample loss, time-series gaps, and device-metric disappearance. The framework is evaluated on production telemetry from GPU nodes at GWDG, where GPU, node, monitoring, and scheduler signals can be correlated. Results show that detachment failures exhibit minimal numeric precursor and are primarily observable through structural telemetry collapse, while joint modeling increases early-warning lead time compared to GPU-only detection. The dataset used in this study is publicly available at https://doi.org/10.5281/zenodo.19052367.
- Abstract(参考訳): GPUノードは現代のHPCおよびAIワークロードの中心であるが、多くの障害が即時障害として現れない。
いくつかの不安定性は、弱い熱や効率のドリフトとして徐々に現れるが、顕著なクラスは、数値の前駆体がほとんど、あるいは全く存在せず、突然起こる。
これらの分離クラスの障害では、GPUはドライバや相互接続レベルで利用できなくなり、デバイスメトリクスの消失や監視ペイロードの整合性の低下など、支配的な可観測信号は構造的である。
本稿では,共同モデルを用いた可観測性を考慮した早期警戒フレームワークを提案する。
(i)GPUテレメトリと熱ドリフトシグネチャの利用
(II) スクラップ遅延の増加, サンプル損失, 時系列ギャップ, デバイスメトリクスの消失などのモニタリング・パイプ劣化指標について検討した。
フレームワークはGWDGのGPUノードからのプロダクションテレメトリに基づいて評価され、GPU、ノード、監視、スケジューラ信号の相関が可能である。
その結果, 分離故障は最小の数値前駆体を示し, 構造的テレメトリ崩壊によって主に観測可能である一方で, 関節モデリングはGPUのみの検出と比較して早期にリードタイムを増大させることがわかった。
この研究で使用されるデータセットはhttps://doi.org/10.5281/zenodo. 19052367で公開されている。
関連論文リスト
- Timing and Memory Telemetry on GPUs for AI Governance [3.3108773921973316]
本稿では,計算活動と相関する時間とメモリベースの観測値を生成する計測フレームワークを提案する。
これらのプリミティブは、信頼できるファームウェア、エンクレーブ、ベンダーが管理するカウンタなしでも観測可能なGPUエンゲージメントの統計的および行動的指標を提供する。
論文 参考訳(メタデータ) (2026-02-10T03:20:06Z) - ShadowScope: GPU Monitoring and Validation via Composable Side Channel Signals [6.389108369952326]
GPUカーネルは、従来のメモリ安全性問題と新たなマイクロアーキテクチャ脅威の両方に対して脆弱である。
構成可能なゴールデンモデルを活用した監視・検証フレームワークであるShadowScopeを提案する。
また、GPUパイプラインに軽量のオンチップチェックを統合するハードウェア支援のバリデーションメカニズムであるShadowScope+も導入しています。
論文 参考訳(メタデータ) (2025-08-30T01:38:05Z) - Multitask Active Learning for Graph Anomaly Detection [48.690169078479116]
MultItask acTIve Graph Anomaly Detection framework,すなわちMITIGATEを提案する。
ノード分類タスクを結合することにより、MITIGATEは既知の異常を伴わずに配布外ノードを検出する能力を得る。
4つのデータセットに関する実証的研究は、MITIGATEが異常検出のための最先端の手法を著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-01-24T03:43:45Z) - Graph Spatiotemporal Process for Multivariate Time Series Anomaly
Detection with Missing Values [67.76168547245237]
本稿では,グラフ時間過程と異常スコアラを用いて異常を検出するGST-Proという新しいフレームワークを提案する。
実験結果から,GST-Pro法は時系列データ中の異常を効果的に検出し,最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-11T10:10:16Z) - Are we certain it's anomalous? [57.729669157989235]
時系列における異常検出は、高度に非線形な時間的相関のため、異常は稀であるため、複雑なタスクである。
本稿では,異常検出(HypAD)におけるハイパボリック不確実性の新しい利用法を提案する。
HypADは自己指導で入力信号を再構築する。
論文 参考訳(メタデータ) (2022-11-16T21:31:39Z) - Ranking-Based Physics-Informed Line Failure Detection in Power Grids [66.0797334582536]
ライン障害のリアルタイムかつ正確な検出は、極端な気象の影響を緩和し、緊急制御を活性化する最初のステップである。
電力収支方程式は、非線形性、極端な事象における発生の不確実性の増加、グリッドオブザーバビリティの欠如は、従来のデータ駆動障害検出手法の効率を損なう。
本稿では,グリッドトポロジ情報を利用した物理インフォームドライン故障検出器(FIELD)を提案する。
論文 参考訳(メタデータ) (2022-08-31T18:19:25Z) - Deep Anomaly Detection for Time-series Data in Industrial IoT: A
Communication-Efficient On-device Federated Learning Approach [40.992167455141946]
本稿では,IIoTにおける時系列データ検出のための,新しい通信効率の高いデバイス上でのフェデレーション学習(FL)に基づく深層異常検出フレームワークを提案する。
まず、分散エッジデバイスが協調して異常検出モデルを訓練し、その一般化能力を向上させるためのFLフレームワークを導入する。
次に,アテンションメカニズムに基づく畳み込みニューラルネットワーク-Long Short Term Memory (AMCNN-LSTM) モデルを提案し,異常を正確に検出する。
第三に,提案したフレームワークを産業異常検出のタイムラインに適用するために,トップテキスト選択に基づく勾配圧縮機構を提案する。
論文 参考訳(メタデータ) (2020-07-19T16:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。