論文の概要: Adaptive Root Cause Localization for Microservice Systems with Multi-Agent Recursion-of-Thought
- arxiv url: http://arxiv.org/abs/2508.20370v1
- Date: Thu, 28 Aug 2025 02:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.906526
- Title: Adaptive Root Cause Localization for Microservice Systems with Multi-Agent Recursion-of-Thought
- Title(参考訳): マルチエージェント再帰型マイクロサービスシステムにおける適応根の局在化
- Authors: Lingzhe Zhang, Tong Jia, Kangjin Wang, Weijie Hong, Chiming Duan, Minghua He, Ying Li,
- Abstract要約: 本稿では,マイクロサービスシステムに対する適応的根本原因ローカライゼーション手法であるRCLAgentを紹介する。
RCLAgentは,1つの要求出力状態のみを用いて根本原因を局所化し,優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 11.307072056343662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As contemporary microservice systems become increasingly popular and complex-often comprising hundreds or even thousands of fine-grained, interdependent subsystems-they are facing more frequent failures. Ensuring system reliability thus demands accurate root cause localization. While traces and metrics have proven to be effective data sources for this task, existing methods either heavily rely on pre-defined schemas, which struggle to adapt to evolving operational contexts, or lack interpretability in their reasoning process, thereby leaving Site Reliability Engineers (SREs) confused. In this paper, we conduct a comprehensive study on how SREs localize the root cause of failures, drawing insights from multiple professional SREs across different organizations. Our investigation reveals that human root cause analysis exhibits three key characteristics: recursiveness, multi-dimensional expansion, and cross-modal reasoning. Motivated by these findings, we introduce RCLAgent, an adaptive root cause localization method for microservice systems that leverages a multi-agent recursion-of-thought framework. RCLAgent employs a novel recursion-of-thought strategy to guide the LLM's reasoning process, effectively integrating data from multiple agents and tool-assisted analysis to accurately pinpoint the root cause. Experimental evaluations on various public datasets demonstrate that RCLAgent achieves superior performance by localizing the root cause using only a single request-outperforming state-of-the-art methods that depend on aggregating multiple requests. These results underscore the effectiveness of RCLAgent in enhancing the efficiency and precision of root cause localization in complex microservice environments.
- Abstract(参考訳): 現代のマイクロサービスシステムは、何百、何千ものきめ細かい、相互依存のサブシステムが、より頻繁に障害に直面しているため、ますます人気を増し、複雑化する。
システムの信頼性を確保するために、正確な根本原因のローカライゼーションが要求される。
トレースとメトリクスは、このタスクに有効なデータソースであることが証明されているが、既存のメソッドは、進化する運用コンテキストに適応するのに苦労する事前定義されたスキーマや、推論プロセスにおける解釈可能性の欠如に大きく依存しているため、SRE(Site Reliability Engineers)は混乱している。
本稿では,SREが障害の根本原因をローカライズする方法を包括的に研究し,さまざまな組織にまたがる複数のプロフェッショナルSREから洞察を引き出す。
本研究は,人間の根本原因分析が再帰性,多次元展開,モーダル間推論の3つの重要な特徴を示すことを示す。
これらの知見に触発されて,マルチエージェント・オブ・シントフレームワークを活用したマイクロサービスシステムの適応的根本原因ローカライズ手法であるRCLAgentを紹介した。
RCLAgentは、LLMの推論プロセスを導くために、新しい再帰戦略を採用し、複数のエージェントからのデータを効果的に統合し、ツール支援分析によって根本原因を正確に特定する。
RCLAgentは,複数要求の集約に依存する単一要求出力方式のみを用いて,根本原因をローカライズすることで,優れた性能を実現することを示す。
これらの結果は、複雑なマイクロサービス環境における根本原因の局在化の効率性と精度を高めるRCLAgentの有効性を裏付けるものである。
関連論文リスト
- The Multi-Agent Fault Localization System Based on Monte Carlo Tree Search Approach [2.4898626838193647]
大規模言語モデル(LLM)は、インシデントを素早く見つけてリカバリするための新しいパスを提供する。
本手法は根本原因の局在精度を49.29%から128.35%向上させる。
論文 参考訳(メタデータ) (2025-07-30T16:03:21Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Knowledge-Aware Iterative Retrieval for Multi-Agent Systems [0.0]
本稿では,新しい大規模言語モデル (LLM) によるエージェントフレームワークを提案する。
動的に進化する知識を活用することで、クエリを反復的に洗練し、文脈的証拠をフィルタリングする。
提案システムは、更新されたコンテキストの競合的および協調的な共有をサポートする。
論文 参考訳(メタデータ) (2025-03-17T15:27:02Z) - RCRank: Multimodal Ranking of Root Causes of Slow Queries in Cloud Database Systems [38.72325043937881]
ルート原因の診断は、遅いクエリの検出とリビジョンを促進するのに不可欠である。
本稿では、遅いクエリの根本原因タイプを特定し、遅いクエリを高速化する可能性に応じてそれらをランク付けする手法を提案する。
より正確かつ詳細な診断を可能にするために,RCRankフレームワークの根本原因のマルチモーダルランキングを提案する。
論文 参考訳(メタデータ) (2025-03-06T09:35:20Z) - Online Multi-modal Root Cause Analysis [61.94987309148539]
ルート原因分析(RCA)は、マイクロサービスシステムにおける障害の根本原因の特定に不可欠である。
既存のオンラインRCAメソッドは、マルチモーダルシステムにおける複雑な相互作用を見渡す単一モーダルデータのみを処理する。
OCEANは、根本原因の局在化のための新しいオンラインマルチモーダル因果構造学習手法である。
論文 参考訳(メタデータ) (2024-10-13T21:47:36Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。