論文の概要: ClusterRCA: Network Failure Diagnosis in HPC Systems Using Multimodal Data
- arxiv url: http://arxiv.org/abs/2506.20673v1
- Date: Tue, 17 Jun 2025 16:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.808442
- Title: ClusterRCA: Network Failure Diagnosis in HPC Systems Using Multimodal Data
- Title(参考訳): ClusterRCA:マルチモーダルデータを用いたHPCシステムのネットワーク障害診断
- Authors: Yongqian Sun, Xijie Pan, Xiao Xiong, Lei Tao, Jiaju Wang, Shenglin Zhang, Yuan Yuan, Yuqi Li, Kunlin Jian,
- Abstract要約: 本稿では,マルチモーダルデータを活用することにより,原因ノードをローカライズし,障害タイプを決定する新しいフレームワークであるClusterRCAを提案する。
原因ノードを正確にローカライズし、障害タイプを決定するために、ClusterRCAは分類器ベースのアプローチとグラフベースのアプローチを組み合わせる。
上位階層のグローバルHPCデバイスベンダーが収集したデータセットの実験によると、ClusterRCAはHPCシステムのネットワーク障害の診断において高い精度を達成する。
- 参考スコア(独自算出の注目度): 10.100878764617747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Network failure diagnosis is challenging yet critical for high-performance computing (HPC) systems. Existing methods cannot be directly applied to HPC scenarios due to data heterogeneity and lack of accuracy. This paper proposes a novel framework, called ClusterRCA, to localize culprit nodes and determine failure types by leveraging multimodal data. ClusterRCA extracts features from topologically connected network interface controller (NIC) pairs to analyze the diverse, multimodal data in HPC systems. To accurately localize culprit nodes and determine failure types, ClusterRCA combines classifier-based and graph-based approaches. A failure graph is constructed based on the output of the state classifier, and then it performs a customized random walk on the graph to localize the root cause. Experiments on datasets collected by a top-tier global HPC device vendor show ClusterRCA achieves high accuracy in diagnosing network failure for HPC systems. ClusterRCA also maintains robust performance across different application scenarios.
- Abstract(参考訳): ネットワーク障害の診断はハイパフォーマンスコンピューティング(HPC)システムでは困難である。
既存の手法は、データの異質性や精度の欠如により、HPCのシナリオに直接適用することはできない。
本稿では,マルチモーダルデータを活用することにより,原因ノードをローカライズし,障害タイプを決定する新しいフレームワークであるClusterRCAを提案する。
ClusterRCAは、HPCシステムにおける多様なマルチモーダルデータを分析するために、トポロジ的に接続されたネットワークインタフェースコントローラ(NIC)ペアから特徴を抽出する。
原因ノードを正確にローカライズし、障害タイプを決定するために、ClusterRCAは分類器ベースのアプローチとグラフベースのアプローチを組み合わせる。
障害グラフは状態分類器の出力に基づいて構築され、そのグラフ上でカスタマイズされたランダムウォークを行い、根本原因をローカライズする。
上位階層のグローバルHPCデバイスベンダーが収集したデータセットの実験によると、ClusterRCAはHPCシステムのネットワーク障害の診断において高い精度を達成する。
ClusterRCAは、さまざまなアプリケーションシナリオにわたる堅牢なパフォーマンスも維持する。
関連論文リスト
- Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - Hypergraph-based multi-scale spatio-temporal graph convolution network for Time-Series anomaly detection [8.878898677348086]
多次元時系列異常検出技術は、航空宇宙、水処理、クラウドサービスプロバイダなど、多くの分野において重要な役割を果たす。
高次元および複雑なデータセットにおいて、効果的かつ正確な異常検出を行うことがますます困難になっている。
本稿では,複数変数間の高次マルチホップ相関を明示的に捉えるハイパーグラフに基づく時間グラフ畳み込みネットワークモデルSTGCN_Hyperを提案する。
我々のモデルはデータ中のマルチスケール時系列の特徴と特徴間の依存関係を柔軟に学習し、異常検出の精度、リコール、F1スコアで既存のベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2024-10-29T17:19:18Z) - Unsupervised Learning for Fault Detection of HVAC Systems: An OPTICS
-based Approach for Terminal Air Handling Units [1.0878040851638]
本研究では,ターミナルエアハンドリングユニットとその関連システムにおける故障を検出するための教師なし学習戦略を提案する。
この手法は、主成分分析を用いて歴史的センサデータを前処理して次元を合理化する。
その結果,オプティクスは季節ごとの精度で常にk平均を上回っていた。
論文 参考訳(メタデータ) (2023-12-18T18:08:54Z) - Unsupervised KPIs-Based Clustering of Jobs in HPC Data Centers [0.0]
キーパフォーマンスインジケータ(KPI)は、CPU使用量、メモリ使用量、ネットワークトラフィック、その他のハードウェアを監視するセンサに関する情報を提供する、膨大な数の監視タスクを生成する。
本論文の主な貢献は、HPCシステムにおいて、各ジョブの振る舞いに応じて、どのメトリック/s(KPI)が、どのタイプのジョブを識別/分類するのに最も適しているかを特定することである。
我々は,ネットワーク(インタフェース)トラフィック監視に関連する指標(KPI)がクラスタHPCジョブの結合と分離に最適であり,階層的クラスタリングアルゴリズムがこのタスクに最も適していると結論づけた。
論文 参考訳(メタデータ) (2023-12-11T17:31:46Z) - NetRCA: An Effective Network Fault Cause Localization Algorithm [22.88986905436378]
ネットワーク障害の根本原因の特定は、ネットワークの運用と保守に不可欠である。
この問題に対処するために,NetRCAという新しいアルゴリズムを提案する。
ICASSP 2022 AIOps Challengeの実際のデータセットで実験と分析が行われる。
論文 参考訳(メタデータ) (2022-02-23T02:03:35Z) - Self-supervised Contrastive Attributed Graph Clustering [110.52694943592974]
我々は,自己教師型コントラストグラフクラスタリング(SCAGC)という,新たな属性グラフクラスタリングネットワークを提案する。
SCAGCでは,不正確なクラスタリングラベルを活用することで,ノード表現学習のための自己教師付きコントラスト損失を設計する。
OOSノードでは、SCAGCはクラスタリングラベルを直接計算できる。
論文 参考訳(メタデータ) (2021-10-15T03:25:28Z) - Attention-driven Graph Clustering Network [49.040136530379094]
我々は、注意駆動グラフクラスタリングネットワーク(AGCN)という新しいディープクラスタリング手法を提案する。
AGCNは、ノード属性特徴とトポロジグラフ特徴を動的に融合するために、不均一な融合モジュールを利用する。
AGCNは、教師なしの方法で特徴学習とクラスタ割り当てを共同で行うことができる。
論文 参考訳(メタデータ) (2021-08-12T02:30:38Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z) - Contextual-Bandit Anomaly Detection for IoT Data in Distributed
Hierarchical Edge Computing [65.78881372074983]
IoTデバイスは複雑なディープニューラルネットワーク(DNN)モデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。
本稿では,分散階層エッジコンピューティング(HEC)システムを対象とした適応型異常検出手法のデモと構築を行う。
提案手法は,検出タスクをクラウドにオフロードした場合と比較して,精度を犠牲にすることなく検出遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-04-15T06:13:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。