論文の概要: MetaRCA: A Generalizable Root Cause Analysis Framework for Cloud-Native Systems Powered by Meta Causal Knowledge
- arxiv url: http://arxiv.org/abs/2603.02032v1
- Date: Mon, 02 Mar 2026 16:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.96589
- Title: MetaRCA: A Generalizable Root Cause Analysis Framework for Cloud-Native Systems Powered by Meta Causal Knowledge
- Title(参考訳): MetaRCA: メタ因果知識を利用したクラウドネイティブシステムのための一般化可能な根因因因解析フレームワーク
- Authors: Shuai Liang, Pengfei Chen, Bozhe Tian, Gou Tan, Maohong Xu, Youjun Qu, Yahui Zhao, Yiduo Shang, Chongkang Tan,
- Abstract要約: クラウドネイティブシステムのダイナミクスと複雑性は、ルート原因分析(RCA)に重大な課題をもたらす
本稿では,クラウドネイティブシステムのための汎用RCAフレームワークであるMetaRCAを紹介する。
- 参考スコア(独自算出の注目度): 3.8594782754324535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dynamics and complexity of cloud-native systems present significant challenges for Root Cause Analysis (RCA). While causality-based RCA methods have shown significant progress in recent years, their practical adoption is fundamentally limited by three intertwined challenges: poor scalability against system complexity, brittle generalization across different system topologies, and inadequate integration of domain knowledge. These limitations create a vicious cycle, hindering the development of robust and efficient RCA solutions. This paper introduces MetaRCA, a generalizable RCA framework for cloud-native systems. MetaRCA first constructs a Meta Causal Graph (MCG) offline, a reusable knowledge base defined at the metadata level. To build the MCG, we propose an evidence-driven algorithm that systematically fuses knowledge from Large Language Models (LLMs), historical fault reports, and observability data. When a fault occurs, MetaRCA performs a lightweight online inference by dynamically instantiating the MCG into a localized graph based on the current context, and then leverages real-time data to weight and prune causal links for precise root cause localization. Evaluated on 252 public and 59 production failures, MetaRCA demonstrates state-of-the-art performance. It surpasses the strongest baseline by 29 percentage points in service-level and 48 percentage points in metric-level accuracy. This performance advantage widens as system complexity increases, with its overhead scaling near-linearly. Crucially, MetaRCA shows robust cross-system generalization, maintaining over 80% accuracy across diverse systems.
- Abstract(参考訳): クラウドネイティブシステムのダイナミクスと複雑性は、ルート原因分析(RCA)に重大な課題をもたらします。
因果関係に基づくRCA手法は近年顕著な進歩を遂げているが、その実践的採用は、システム複雑性に対するスケーラビリティの低下、異なるシステムトポロジ間の不安定な一般化、ドメイン知識の不十分な統合の3つの課題によって根本的に制限されている。
これらの制限は、堅牢で効率的なRCAソリューションの開発を妨げる悪循環を生み出します。
本稿では,クラウドネイティブシステムのための汎用RCAフレームワークであるMetaRCAを紹介する。
MetaRCAはメタデータレベルで定義された再利用可能な知識ベースであるMeta Causal Graph(MCG)をオフラインで構築する。
MCGを構築するために,大規模言語モデル (LLM) や過去の故障報告,観測可能性データから知識を体系的に融合するエビデンス駆動アルゴリズムを提案する。
障害が発生した場合、MetaRCAは、現在の状況に基づいてMCGを局所化グラフに動的にインスタンス化して軽量なオンライン推論を行い、その後、リアルタイムデータを重み付けおよびプーン因果リンクを利用して正確なルート原因ローカライゼーションを行う。
252のパブリックと59のプロダクション障害を評価したMetaRCAは、最先端のパフォーマンスを示している。
サービスレベルでは29ポイント、メートル法レベルでは48ポイント、最強のベースラインを上回ります。
この性能上の利点は、システムの複雑さが増大し、オーバーヘッドがほぼ直線的に拡大するにつれて拡大する。
重要な点として、MetaRCAは、多様なシステム間で80%以上の精度を維持しながら、堅牢なクロスシステム一般化を示す。
関連論文リスト
- Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - MetaCaDI: A Meta-Learning Framework for Scalable Causal Discovery with Unknown Interventions [18.13509245960298]
本稿では,メタ学習問題として,因果グラフと未知の介入を共同で発見する最初のフレームワークであるMetaCaDIを紹介する。
重要な革新は、我々のモデルの分析的適応であり、これは、高価で不安定な勾配ベースの双レベル最適化をバイパスするためにクローズドフォームのソリューションを使用する。
因果グラフのリカバリと、最大10のデータインスタンスからの介入ターゲットの特定の両方に優れており、データスカースシナリオにおける堅牢性を示している。
論文 参考訳(メタデータ) (2025-10-25T13:59:42Z) - Simplifying Root Cause Analysis in Kubernetes with StateGraph and LLM [13.293736787442414]
我々は根本原因分析のための革新的なツールであるSynergyRCAを紹介する。
SynergyRCAは、空間的および時間的関係をキャプチャするStateGraphを構築する。
約2分間の平均で根本原因を特定でき、約0.90の精度を達成できる。
論文 参考訳(メタデータ) (2025-06-03T06:09:13Z) - MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search [61.11836311160951]
本稿では,知識集約型タスクにおける小言語モデルの推論能力を高める新しいアプローチであるMCTS-RAGを紹介する。
通常、推論から独立して情報を取得する標準的なRAG法とは異なり、MCTS-RAGは構造化推論と適応的検索を組み合わせる。
この統合されたアプローチは意思決定を強化し、幻覚を減らし、事実の正確性と応答の整合性を向上させる。
論文 参考訳(メタデータ) (2025-03-26T17:46:08Z) - Online Multi-modal Root Cause Analysis [61.94987309148539]
ルート原因分析(RCA)は、マイクロサービスシステムにおける障害の根本原因の特定に不可欠である。
既存のオンラインRCAメソッドは、マルチモーダルシステムにおける複雑な相互作用を見渡す単一モーダルデータのみを処理する。
OCEANは、根本原因の局在化のための新しいオンラインマルチモーダル因果構造学習手法である。
論文 参考訳(メタデータ) (2024-10-13T21:47:36Z) - KGroot: Enhancing Root Cause Analysis through Knowledge Graphs and Graph
Convolutional Neural Networks [14.336830860792707]
KGrootはイベント知識とイベント間の相関を使って根本原因推論を行う。
実験では、KGrootは第2レベルにおいて93.5%の確率で根本原因を特定できることを示した。
論文 参考訳(メタデータ) (2024-02-11T10:30:38Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on
Large-Scale Microservice Systems [44.53009495726297]
マイクロサービスシステムの信頼性を確保するために、ルート原因分析(RCA)がますます重要になっている。
本稿では,大規模マイクロサービスシステムの課題に対処するエンドツーエンドのRCAフレームワークであるTraceDiagを提案する。
論文 参考訳(メタデータ) (2023-10-28T15:49:00Z) - Disentangled Causal Graph Learning for Online Unsupervised Root Cause
Analysis [49.910053255238566]
ルート原因分析(RCA)は、システム監視データを分析することにより、システム障害/障害の根本原因を特定することができる。
従来の研究は主にオフラインのRCAアルゴリズムの開発に重点を置いており、しばしば手動でRCAプロセスを開始する必要がある。
我々は、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。
論文 参考訳(メタデータ) (2023-05-18T01:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。