論文の概要: TORAI: Multi-source Root Cause Analysis for Blind Spots in Microservice Service Call Graph
- arxiv url: http://arxiv.org/abs/2604.13522v2
- Date: Sat, 18 Apr 2026 19:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 13:51:31.11256
- Title: TORAI: Multi-source Root Cause Analysis for Blind Spots in Microservice Service Call Graph
- Title(参考訳): TORAI: マイクロサービスサービスコールグラフにおけるブラインドスポットのマルチソース根本原因分析
- Authors: Luan Pham, Huong Ha, Xiuzhen Zhang, Hongyu Zhang,
- Abstract要約: Blackboxサービスには、コンパイルされたソフトウェアやサポートされていないサービスなどのトレースが含まれる。
盲点が存在する場合、既存のマルチソースRCA手法の性能に影響を及ぼす可能性がある。
本稿では,サービスコールグラフに頼ることなく,詳細な根本原因を効果的に特定する,新しい教師なしのアプローチであるTORAIを提案する。
- 参考スコア(独自算出の注目度): 13.405964508498835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing multi-source root cause analysis (RCA) methods for microservice systems assume all services have traces to construct a service call graph. However, this assumption is not practical as microservice systems evolve rapidly and may contain blackbox services without traces, such as compiled software or unsupported services. We refer to these services as blind spots. In the presence of blind spots, the performance of existing multi-source RCA methods may be affected, as they only diagnose visible services on the call graph. To overcome this limitation, we propose TORAI, a novel unsupervised approach that effectively pinpoints fine-grained root causes without relying on the service call graph. Instead, TORAI first measures anomaly severity using available multi-source telemetry data. It then performs clustering to group services based on their severity symptoms and conducts causal analysis to rank services within each severity cluster. Finally, TORAI aggregates the cluster rankings and uses hypothesis testing to identify fine-grained root causes. TORAI provides an unsupervised approach that leverages available multi-source telemetry data for RCA without requiring a constructed service call graph or further intrusive actions, thus addressing the limitations of existing methods. Our experiments on three benchmark systems demonstrate that TORAI outperforms state-of-the-art baselines remarkably in the presence of blind spots. Performance on real-world failures further shows that TORAI can accurately pinpoint the root causes in top-3 recommendations.
- Abstract(参考訳): マイクロサービスシステムのための既存のマルチソース根本原因分析(RCA)メソッドは、すべてのサービスがサービスコールグラフを構築するためのトレースを持っていると仮定する。
しかし、マイクロサービスシステムは急速に進化し、コンパイルされたソフトウェアやサポートされていないサービスのようなトレースのないブラックボックスサービスを含む可能性があるため、この仮定は実用的ではない。
これらのサービスを盲点と呼んでいる。
盲点が存在する場合、コールグラフ上の可視サービスのみを診断するため、既存のマルチソースRCAメソッドのパフォーマンスが影響を受ける可能性がある。
この制限を克服するために,サービスコールグラフに頼ることなく,根本原因を効果的に特定する,教師なしの新しいアプローチであるTORAIを提案する。
代わりにTORAIは、利用可能なマルチソーステレメトリデータを使用して、まず異常な重大度を測定する。
その後、重度症状に基づいてグループサービスのクラスタリングを行い、重度クラスタ内のサービスをランク付けするために因果解析を行う。
最後に、TORAIはクラスタランキングを集計し、仮説テストを使用してきめ細かい根本原因を特定する。
TORAIは、構築されたサービスコールグラフやさらなる侵入的アクションを必要とせずに、RCAの利用可能なマルチソーステレメトリデータを活用する、教師なしのアプローチを提供する。
3つのベンチマークシステムによる実験により,TORAIは目視点の存在下で最先端のベースラインを著しく上回っていることが示された。
現実世界の障害のパフォーマンスはさらに、TORAIがトップ3レコメンデーションの根本原因を正確に特定できることを示している。
関連論文リスト
- AnoMod: A Dataset for Anomaly Detection and Root Cause Analysis in Microservice Systems [18.34761164400137]
我々は、SocialNetworkとTrainTicketという2つのオープンソースのマイクロサービスシステム上に構築された、新しいマルチモーダルな異常データセットを紹介します。
各シナリオについて、ログ、メトリクス、分散トレース、APIレスポンス、コードカバレッジレポートの5つのモード(Mod)を収集します。
このデータセットは、クロスモーダル異常検出および融合/アブレーション戦略の評価を可能にする。
論文 参考訳(メタデータ) (2026-01-30T12:03:51Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - FaaSRCA: Full Lifecycle Root Cause Analysis for Serverless Applications [9.14008416378655]
FRCAは、サーバレスアプリケーションのための完全なライフサイクル根本原因分析手法である。
Global Call Graphを使用して、プラットフォームとアプリケーション側から生成されたマルチモーダル可観測データを統合する。
スコアに基づいて、サーバレス関数のライフサイクルステージの粒度の根本原因を決定する。
論文 参考訳(メタデータ) (2024-12-03T08:06:29Z) - CHASE: A Causal Hypergraph based Framework for Root Cause Analysis in Multimodal Microservice Systems [29.424326542377386]
マルチモーダルデータを持つマイクロサービスシステムにおける根本原因解析,すなわちCHASEのための因数不均一なgraAph baSed framEworkを提案する。
CHASEは、因果関係の流れを表すハイパーエッジを持つ構築されたハイパーグラフから学習し、根本原因の局在を実行する。
論文 参考訳(メタデータ) (2024-06-28T07:46:51Z) - Disentangled Causal Graph Learning for Online Unsupervised Root Cause
Analysis [49.910053255238566]
ルート原因分析(RCA)は、システム監視データを分析することにより、システム障害/障害の根本原因を特定することができる。
従来の研究は主にオフラインのRCAアルゴリズムの開発に重点を置いており、しばしば手動でRCAプロセスを開始する必要がある。
我々は、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。
論文 参考訳(メタデータ) (2023-05-18T01:27:48Z) - Causal Inference-Based Root Cause Analysis for Online Service Systems
with Intervention Recognition [11.067832313491449]
本稿では,介入認識という新たな因果推論タスクとして根本原因分析問題を定式化する。
我々は、因果推論に基づく新しい教師なし因果推論手法、Causal Inference-based Root Cause Analysis (CIRCA)を提案する。
実世界のデータセットのパフォーマンスは、CIRCAが最高のベースラインメソッドよりも、トップ1レコメンデーションのリコールを25%改善できることを示している。
論文 参考訳(メタデータ) (2022-06-13T01:45:13Z) - A2Log: Attentive Augmented Log Anomaly Detection [53.06341151551106]
異常検出は、ITサービスの信頼性とサービス性にとってますます重要になる。
既存の教師なし手法は、適切な決定境界を得るために異常な例を必要とする。
我々は,異常判定と異常判定の2段階からなる教師なし異常検出手法であるA2Logを開発した。
論文 参考訳(メタデータ) (2021-09-20T13:40:21Z) - DARTS-: Robustly Stepping out of Performance Collapse Without Indicators [74.21019737169675]
異なるアーキテクチャ検索は、長期にわたるパフォーマンスの不安定さに悩まされる。
ヘッセン固有値のような指標は、性能が崩壊する前に探索を止める信号として提案される。
本稿では,崩壊を解決するために,より微妙で直接的なアプローチをとる。
論文 参考訳(メタデータ) (2020-09-02T12:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。