論文の概要: Incremental Causal Graph Learning for Online Unsupervised Root Cause
Analysis
- arxiv url: http://arxiv.org/abs/2305.10638v1
- Date: Thu, 18 May 2023 01:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 17:29:36.630282
- Title: Incremental Causal Graph Learning for Online Unsupervised Root Cause
Analysis
- Title(参考訳): オンライン根本原因解析のためのインクリメンタル因果グラフ学習
- Authors: Dongjie Wang, Zhengzhang Chen, Yanjie Fu, Yanchi Liu, Haifeng Chen
- Abstract要約: ルート原因分析(RCA)は、システム監視データを分析することにより、システム障害/障害の根本原因を特定することができる。
従来の研究は主にオフラインのRCAアルゴリズムの開発に重点を置いており、しばしば手動でRCAプロセスを開始する必要がある。
我々は、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。
- 参考スコア(独自算出の注目度): 49.910053255238566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of root cause analysis (RCA) is to identify the root causes of
system faults/failures by analyzing system monitoring data. Efficient RCA can
greatly accelerate system failure recovery and mitigate system damages or
financial losses. However, previous research has mostly focused on developing
offline RCA algorithms, which often require manually initiating the RCA
process, a significant amount of time and data to train a robust model, and
then being retrained from scratch for a new system fault.
In this paper, we propose CORAL, a novel online RCA framework that can
automatically trigger the RCA process and incrementally update the RCA model.
CORAL consists of Trigger Point Detection, Incremental Disentangled Causal
Graph Learning, and Network Propagation-based Root Cause Localization. The
Trigger Point Detection component aims to detect system state transitions
automatically and in near-real-time. To achieve this, we develop an online
trigger point detection approach based on multivariate singular spectrum
analysis and cumulative sum statistics. To efficiently update the RCA model, we
propose an incremental disentangled causal graph learning approach to decouple
the state-invariant and state-dependent information. After that, CORAL applies
a random walk with restarts to the updated causal graph to accurately identify
root causes. The online RCA process terminates when the causal graph and the
generated root cause list converge. Extensive experiments on three real-world
datasets with case studies demonstrate the effectiveness and superiority of the
proposed framework.
- Abstract(参考訳): 根本原因分析 (RCA) の課題は, システムモニタリングデータを分析し, システム障害・障害の根本原因を特定することである。
効率的なRCAはシステム障害の回復を著しく加速し、システム障害や損失を軽減する。
しかし、以前の研究では主にオフラインのRCAアルゴリズムの開発に重点を置いており、RCAプロセスを手動で開始する必要があり、堅牢なモデルのトレーニングにはかなりの時間とデータが必要であり、新しいシステム障害のためにゼロから再訓練される。
本稿では、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。
CoRAL は Trigger Point Detection, Incremental Disentangled Causal Graph Learning, Network Propagation-based Root Cause Localization で構成されている。
Trigger Point Detectionコンポーネントは、システム状態遷移を自動的に、ほぼリアルタイムで検出することを目的としている。
これを実現するために,多変量特異スペクトル解析と累積和統計に基づくオンライントリガーポイント検出手法を開発した。
RCAモデルを効率的に更新するために、状態不変情報と状態依存情報を分離する漸進的不整合因果グラフ学習手法を提案する。
その後、CoRALは更新された因果グラフに再起動を伴うランダムウォークを適用し、根本原因を正確に識別する。
オンラインRCAプロセスは、因果グラフと生成された根本原因リストが収束すると終了する。
ケーススタディを用いた実世界の3つのデータセットに対する大規模な実験は、提案フレームワークの有効性と優位性を示している。
関連論文リスト
- Online Multi-modal Root Cause Analysis [61.94987309148539]
ルート原因分析(RCA)は、マイクロサービスシステムにおける障害の根本原因の特定に不可欠である。
既存のオンラインRCAメソッドは、マルチモーダルシステムにおける複雑な相互作用を見渡す単一モーダルデータのみを処理する。
OCEANは、根本原因の局在化のための新しいオンラインマルチモーダル因果構造学習手法である。
論文 参考訳(メタデータ) (2024-10-13T21:47:36Z) - KGroot: Enhancing Root Cause Analysis through Knowledge Graphs and Graph
Convolutional Neural Networks [14.336830860792707]
KGrootはイベント知識とイベント間の相関を使って根本原因推論を行う。
実験では、KGrootは第2レベルにおいて93.5%の確率で根本原因を特定できることを示した。
論文 参考訳(メタデータ) (2024-02-11T10:30:38Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Automatic Root Cause Analysis via Large Language Models for Cloud
Incidents [51.94361026233668]
クラウドインシデントの根本原因分析を自動化するために,大規模言語モデルによって強化されたオンコールシステムであるRCACopilotを紹介する。
RCACopilotは、入ってくるインシデントと、そのアラートタイプに基づいて対応するインシデントハンドラとをマッチングし、クリティカルランタイム診断情報を集約し、インシデントの根本原因カテゴリを予測し、説明的な物語を提供する。
Microsoftから1年分のインシデントからなる実世界のデータセットを使用してRCACopilotを評価する。
論文 参考訳(メタデータ) (2023-05-25T06:44:50Z) - Hierarchical Graph Neural Networks for Causal Discovery and Root Cause
Localization [52.72490784720227]
REASONはTopological Causal DiscoveryとPersonal Causal Discoveryで構成されている。
Topological Causal Discoveryコンポーネントは、根本原因を辿るために断層伝播をモデル化することを目的としている。
個々の因果発見コンポーネントは、単一のシステムエンティティの突然の変化パターンのキャプチャに重点を置いている。
論文 参考訳(メタデータ) (2023-02-03T20:17:45Z) - Detecting and Ranking Causal Anomalies in End-to-End Complex System [10.02817768857185]
エンドツーエンドシステム(RCAE2E)におけるランク付け因果異常(Ring Causal Anomalies)というフレームワークを提案する。
これらの問題に基づいて、エンド・ツー・エンド・システム(RCAE2E)におけるランク付け因果異常(Ring Causal Anomalies)と呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-18T03:09:28Z) - Causal Inference-Based Root Cause Analysis for Online Service Systems
with Intervention Recognition [11.067832313491449]
本稿では,介入認識という新たな因果推論タスクとして根本原因分析問題を定式化する。
我々は、因果推論に基づく新しい教師なし因果推論手法、Causal Inference-based Root Cause Analysis (CIRCA)を提案する。
実世界のデータセットのパフォーマンスは、CIRCAが最高のベースラインメソッドよりも、トップ1レコメンデーションのリコールを25%改善できることを示している。
論文 参考訳(メタデータ) (2022-06-13T01:45:13Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z) - Causal Discovery from Sparse Time-Series Data Using Echo State Network [0.0]
時系列データ間の因果関係の発見は、症状の原因の診断に役立つ。
本稿では,2つの部分から構成される新しいシステムを提案する。第1部はガウスプロセス回帰を,第2部はエコー状態ネットワークを活用する。
本稿では,対応するマシューズ相関係数 (MCC) と受信器動作特性曲線 (ROC) について報告する。
論文 参考訳(メタデータ) (2022-01-09T05:55:47Z) - An Influence-based Approach for Root Cause Alarm Discovery in Telecom
Networks [7.438302177990416]
実際には、正確で自己調整可能なアラームの根本原因分析は、ネットワークの複雑さと大量のアラームのために大きな課題である。
因果推論とネットワーク埋め込み技術を組み合わせたルート原因警報定位のためのデータ駆動型フレームワークを提案する。
人工データと現実世界の通信データについて評価し,最適なベースラインに対して有意な改善を示した。
論文 参考訳(メタデータ) (2021-05-07T07:41:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。