論文の概要: STAR: A Stage-attributed Triage and Repair framework for RCA Agents in Microservices
- arxiv url: http://arxiv.org/abs/2605.15581v1
- Date: Fri, 15 May 2026 03:44:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 03:45:13.157394
- Title: STAR: A Stage-attributed Triage and Repair framework for RCA Agents in Microservices
- Title(参考訳): STAR: マイクロサービスにおけるRCAエージェントの段階的なトリアージと修復フレームワーク
- Authors: Junle Wang, Xingchuang Liao, Wenjun Wu,
- Abstract要約: 間違ったRCAトレースを修復するためのemphStage-attributed Triage and repair frameworkである textbfSTAR を提案する。
STARは、RCAワークフローを、EmphEvidence Package(EP)、emphHypothesis Set(HS)、emphAnalysis Structure(AS)、emphDecision Report(DR)の4つの構造化ステージに明示的に分解する。
LangGraph上に構築されたSTARは、ステージワイド監査、予算対応のemphFast/Slow、emphを実行する
- 参考スコア(独自算出の注目度): 10.602349579405832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based root cause analysis (RCA) agents have recently emerged as a promising paradigm for incident diagnosis in microservice AIOps. However, their reliability remains fragile: an error in early evidence collection, hypothesis formulation, or causal analysis can propagate through the reasoning trace and eventually corrupt the final diagnosis. In this paper, we present \textbf{STAR}, a \emph{Stage-attributed Triage and Repair} framework for repairing erroneous RCA traces. STAR explicitly decomposes an RCA workflow into four structured stages, namely \emph{Evidence Package} (EP), \emph{Hypothesis Set} (HS), \emph{Analysis Structure} (AS), and \emph{Decision Report} (DR), and treats agent failure as a stage-localizable reasoning bug rather than a monolithic end-to-end error. Built on top of LangGraph, STAR performs stage-wise auditing, budget-aware \emph{Fast/Slow Routing}, \emph{decisive stage localization via counterfactual candidate evaluation}, and stage-specific patch-and-replay repair. We evaluate STAR on a public large-scale benchmark and a real-world production dataset, using two RCA agent workflows and three foundation models. Experimental results show that STAR consistently improves both root cause localization and fault type classification over strong baselines. Moreover, STAR identifies the decisive faulty stage with high accuracy, repairs most initially incorrect traces within one or two replay rounds, and benefits substantially from both Fast/Slow Routing and counterfactual stage evaluation. These results suggest that explicitly modeling \emph{where} an RCA agent fails is an effective path toward reliable, debuggable, and self-repairing agentic RCA systems.
- Abstract(参考訳): LLMベースの根本原因分析(RCA)エージェントが先頃,マイクロサービスAIOpsにおけるインシデント診断の有望なパラダイムとして登場した。
初期の証拠収集、仮説定式化、因果解析の誤りは、推論の痕跡を通じて伝播し、最終的に最終的な診断を損なう。
本稿では,不正なRCAトレースを修復するためのフレームワークであるtextbf{STAR}について述べる。
STARは、RCAワークフローを明示的に4つの構造化段階に分解する: \emph{Evidence Package} (EP), \emph{Hypothesis Set} (HS), \emph{Analysis Structure} (AS), \emph{Decision Report} (DR)。
LangGraph上に構築されたSTARは、ステージワイド監査、予算対応の \emph{Fast/Slow Routing} 、反ファクト的候補評価による \emph{decisive ステージローカライゼーション、ステージ固有のパッチ・アンド・リプレイ修復を実行する。
2つのRCAエージェントワークフローと3つの基礎モデルを用いて、パブリックな大規模ベンチマークと実世界の実運用データセット上でSTARを評価する。
実験結果から,STARは強い基準線上での根本原因の局在化と断層型分類の両方を一貫して改善することが示された。
さらに、STARは決定的な欠陥ステージを高い精度で識別し、最初は1回か2回のリプレイラウンドで間違ったトレースを修復する。
これらの結果から, RCAエージェントが失敗する場所を明示的にモデル化することは, 信頼性, デバッグ性, 自己修復性のある RCA エージェントシステムへの効果的な経路であることが示唆された。
関連論文リスト
- TopoEvo: A Topology-Aware Self-Evolving Multi-Agent Framework for Root Cause Analysis in Microservices [10.602349579405832]
根本原因分析(RCA)はノイズや異種多モード可観測性のために困難である。
近年のLCMをベースとしたRCAエージェントは、ツールグラウンドによる説明を生成できるが、トポロジーに依存しないことが多い。
グラフ表現学習を構造化されたトポロジ制約推論と組み合わせたトポロジ対応の自己進化型マルチエージェントである textbfTopoEvo を提案する。
論文 参考訳(メタデータ) (2026-05-15T04:45:44Z) - Doctor-RAG: Failure-Aware Repair for Agentic Retrieval-Augmented Generation [23.961760006898157]
エージェント検索・拡張生成(Agentic RAG)は,質問応答や複雑な知識推論のパラダイムとして広く採用されている。
既存のアプローチでは、診断分析で停止するか、検索推論パイプライン全体を再実行することで、このような障害に対処するのが一般的である。
本稿では,Agenic RAGの異常を明示的エラーローカライゼーションとプレフィックス再利用によって修正する統合診断・修復フレームワークであるDoctor-RAGを提案する。
論文 参考訳(メタデータ) (2026-04-01T13:13:27Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference [8.823529310904162]
マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:00Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Disentangled Causal Graph Learning for Online Unsupervised Root Cause
Analysis [49.910053255238566]
ルート原因分析(RCA)は、システム監視データを分析することにより、システム障害/障害の根本原因を特定することができる。
従来の研究は主にオフラインのRCAアルゴリズムの開発に重点を置いており、しばしば手動でRCAプロセスを開始する必要がある。
我々は、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。
論文 参考訳(メタデータ) (2023-05-18T01:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。