論文の概要: Adaptive Root Cause Localization for Microservice Systems with Multi-Agent Recursion-of-Thought
- arxiv url: http://arxiv.org/abs/2508.20370v1
- Date: Thu, 28 Aug 2025 02:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.906526
- Title: Adaptive Root Cause Localization for Microservice Systems with Multi-Agent Recursion-of-Thought
- Title(参考訳): マルチエージェント再帰型マイクロサービスシステムにおける適応根の局在化
- Authors: Lingzhe Zhang, Tong Jia, Kangjin Wang, Weijie Hong, Chiming Duan, Minghua He, Ying Li,
- Abstract要約: 本稿では,マイクロサービスシステムに対する適応的根本原因ローカライゼーション手法であるRCLAgentを紹介する。
RCLAgentは,1つの要求出力状態のみを用いて根本原因を局所化し,優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 11.307072056343662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As contemporary microservice systems become increasingly popular and complex-often comprising hundreds or even thousands of fine-grained, interdependent subsystems-they are facing more frequent failures. Ensuring system reliability thus demands accurate root cause localization. While traces and metrics have proven to be effective data sources for this task, existing methods either heavily rely on pre-defined schemas, which struggle to adapt to evolving operational contexts, or lack interpretability in their reasoning process, thereby leaving Site Reliability Engineers (SREs) confused. In this paper, we conduct a comprehensive study on how SREs localize the root cause of failures, drawing insights from multiple professional SREs across different organizations. Our investigation reveals that human root cause analysis exhibits three key characteristics: recursiveness, multi-dimensional expansion, and cross-modal reasoning. Motivated by these findings, we introduce RCLAgent, an adaptive root cause localization method for microservice systems that leverages a multi-agent recursion-of-thought framework. RCLAgent employs a novel recursion-of-thought strategy to guide the LLM's reasoning process, effectively integrating data from multiple agents and tool-assisted analysis to accurately pinpoint the root cause. Experimental evaluations on various public datasets demonstrate that RCLAgent achieves superior performance by localizing the root cause using only a single request-outperforming state-of-the-art methods that depend on aggregating multiple requests. These results underscore the effectiveness of RCLAgent in enhancing the efficiency and precision of root cause localization in complex microservice environments.
- Abstract(参考訳): 現代のマイクロサービスシステムは、何百、何千ものきめ細かい、相互依存のサブシステムが、より頻繁に障害に直面しているため、ますます人気を増し、複雑化する。
システムの信頼性を確保するために、正確な根本原因のローカライゼーションが要求される。
トレースとメトリクスは、このタスクに有効なデータソースであることが証明されているが、既存のメソッドは、進化する運用コンテキストに適応するのに苦労する事前定義されたスキーマや、推論プロセスにおける解釈可能性の欠如に大きく依存しているため、SRE(Site Reliability Engineers)は混乱している。
本稿では,SREが障害の根本原因をローカライズする方法を包括的に研究し,さまざまな組織にまたがる複数のプロフェッショナルSREから洞察を引き出す。
本研究は,人間の根本原因分析が再帰性,多次元展開,モーダル間推論の3つの重要な特徴を示すことを示す。
これらの知見に触発されて,マルチエージェント・オブ・シントフレームワークを活用したマイクロサービスシステムの適応的根本原因ローカライズ手法であるRCLAgentを紹介した。
RCLAgentは、LLMの推論プロセスを導くために、新しい再帰戦略を採用し、複数のエージェントからのデータを効果的に統合し、ツール支援分析によって根本原因を正確に特定する。
RCLAgentは,複数要求の集約に依存する単一要求出力方式のみを用いて,根本原因をローカライズすることで,優れた性能を実現することを示す。
これらの結果は、複雑なマイクロサービス環境における根本原因の局在化の効率性と精度を高めるRCLAgentの有効性を裏付けるものである。
関連論文リスト
- Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - Hypothesize-Then-Verify: Speculative Root Cause Analysis for Microservices with Pathwise Parallelism [19.31110304702373]
SpecRCAは、thithypothesize-then-verifyパラダイムを採用した投機的根本原因分析フレームワークである。
AIOps 2022に関する予備的な実験では、既存のアプローチよりも精度と効率が優れていることが示されている。
論文 参考訳(メタデータ) (2026-01-06T05:58:25Z) - Agentic Memory Enhanced Recursive Reasoning for Root Cause Localization in Microservices [19.187189391947815]
Site Reliability Engineers (SRE) 障害の根本原因をローカライズする。
従来のグラフベースのディープラーニングアプローチは、事前に定義されたスキーマに大きく依存することが多い。
本稿では,ルート原因ローカライゼーションのためのエージェントメモリ拡張フレームワークAMER-RCLを紹介する。
論文 参考訳(メタデータ) (2026-01-06T05:50:14Z) - CREST: Improving Interpretability and Effectiveness of Troubleshooting at Ericsson through Criterion-Specific Trouble Report Retrieval [0.5352699766206809]
本研究では,異なるTR観測基準と検索モデルの性能への影響について検討した。
textbfCREST (textbfCriteria-specific textbfRetrieval via textbfEnsemble of textbf Specialized textbfTR model)を提案する。
CRESTでは、特定のTR基準に基づいてトレーニングされた特殊なモデルを使用して、出力を集約して、多種多様な補完的な信号をキャプチャする。
論文 参考訳(メタデータ) (2025-11-21T17:16:24Z) - VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z) - The Multi-Agent Fault Localization System Based on Monte Carlo Tree Search Approach [2.4898626838193647]
大規模言語モデル(LLM)は、インシデントを素早く見つけてリカバリするための新しいパスを提供する。
本手法は根本原因の局在精度を49.29%から128.35%向上させる。
論文 参考訳(メタデータ) (2025-07-30T16:03:21Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search [61.11836311160951]
本稿では,知識集約型タスクにおける小言語モデルの推論能力を高める新しいアプローチであるMCTS-RAGを紹介する。
通常、推論から独立して情報を取得する標準的なRAG法とは異なり、MCTS-RAGは構造化推論と適応的検索を組み合わせる。
この統合されたアプローチは意思決定を強化し、幻覚を減らし、事実の正確性と応答の整合性を向上させる。
論文 参考訳(メタデータ) (2025-03-26T17:46:08Z) - Knowledge-Aware Iterative Retrieval for Multi-Agent Systems [0.0]
本稿では,新しい大規模言語モデル (LLM) によるエージェントフレームワークを提案する。
動的に進化する知識を活用することで、クエリを反復的に洗練し、文脈的証拠をフィルタリングする。
提案システムは、更新されたコンテキストの競合的および協調的な共有をサポートする。
論文 参考訳(メタデータ) (2025-03-17T15:27:02Z) - RCRank: Multimodal Ranking of Root Causes of Slow Queries in Cloud Database Systems [38.72325043937881]
ルート原因の診断は、遅いクエリの検出とリビジョンを促進するのに不可欠である。
本稿では、遅いクエリの根本原因タイプを特定し、遅いクエリを高速化する可能性に応じてそれらをランク付けする手法を提案する。
より正確かつ詳細な診断を可能にするために,RCRankフレームワークの根本原因のマルチモーダルランキングを提案する。
論文 参考訳(メタデータ) (2025-03-06T09:35:20Z) - Online Multi-modal Root Cause Analysis [61.94987309148539]
ルート原因分析(RCA)は、マイクロサービスシステムにおける障害の根本原因の特定に不可欠である。
既存のオンラインRCAメソッドは、マルチモーダルシステムにおける複雑な相互作用を見渡す単一モーダルデータのみを処理する。
OCEANは、根本原因の局在化のための新しいオンラインマルチモーダル因果構造学習手法である。
論文 参考訳(メタデータ) (2024-10-13T21:47:36Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。