論文の概要: TrioXpert: An automated incident management framework for microservice system
- arxiv url: http://arxiv.org/abs/2506.10043v1
- Date: Wed, 11 Jun 2025 05:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.337874
- Title: TrioXpert: An automated incident management framework for microservice system
- Title(参考訳): TrioXpert: マイクロサービスシステムの自動インシデント管理フレームワーク
- Authors: Yongqian Sun, Yu Luo, Xidao Wen, Yuan Yuan, Xiaohui Nie, Shenglin Zhang, Tong Liu, Xi Luo,
- Abstract要約: TrioXpertは、マルチモーダルデータを完全に活用できるエンドツーエンドのインシデント管理フレームワークである。
複数タスクを同時に処理するために、大きな言語モデル(LLM)を用いた協調推論機構を採用している。
- 参考スコア(独自算出の注目度): 10.940508572310444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated incident management plays a pivotal role in large-scale microservice systems. However, many existing methods rely solely on single-modal data (e.g., metrics, logs, and traces) and struggle to simultaneously address multiple downstream tasks, including anomaly detection (AD), failure triage (FT), and root cause localization (RCL). Moreover, the lack of clear reasoning evidence in current techniques often leads to insufficient interpretability. To address these limitations, we propose TrioXpert, an end-to-end incident management framework capable of fully leveraging multimodal data. TrioXpert designs three independent data processing pipelines based on the inherent characteristics of different modalities, comprehensively characterizing the operational status of microservice systems from both numerical and textual dimensions. It employs a collaborative reasoning mechanism using large language models (LLMs) to simultaneously handle multiple tasks while providing clear reasoning evidence to ensure strong interpretability. We conducted extensive evaluations on two popular microservice system datasets, and the experimental results demonstrate that TrioXpert achieves outstanding performance in AD (improving by 4.7% to 57.7%), FT (improving by 2.1% to 40.6%), and RCL (improving by 1.6% to 163.1%) tasks.
- Abstract(参考訳): 大規模なマイクロサービスシステムでは、自動インシデント管理が重要な役割を担います。
しかし、既存の多くのメソッドはシングルモーダルデータ(メトリクス、ログ、トレースなど)にのみ依存しており、異常検出(AD)、障害トリアージ(FT)、ルート原因ローカライゼーション(RCL)など、複数の下流タスクに同時に対処するのに苦労している。
さらに、現在の手法における明確な推論証拠の欠如は、しばしば解釈可能性の不足につながる。
これらの制約に対処するため,マルチモーダルデータを完全に活用可能なエンドツーエンドインシデント管理フレームワークであるTrioXpertを提案する。
TrioXpertは、異なるモードの固有の特性に基づいて、3つの独立したデータ処理パイプラインを設計し、数値次元とテキスト次元の両方からマイクロサービスシステムの運用状態を包括的に特徴付けている。
大規模言語モデル(LLM)を用いた協調推論機構を使用して、複数のタスクを同時に処理し、強い解釈可能性を保証するための明確な推論証拠を提供する。
我々は2つの一般的なマイクロサービスシステムデータセットについて広範な評価を行い、実験の結果、TrioXpertはAD(4.7%から57.7%)、FT(2.1%から40.6%)、RCL(1.6%から163.1%)のタスクで優れたパフォーマンスを実現していることが示された。
関連論文リスト
- Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - TAMO:Fine-Grained Root Cause Analysis via Tool-Assisted LLM Agent with Multi-Modality Observation Data in Cloud-Native Systems [33.5606443790794]
大規模言語モデル(LLM)は、コンテキスト推論とドメイン知識の統合においてブレークスルーをもたらした。
細粒度根本原因解析のための多モード観測データ,すなわちTAMOを用いたツール支援LLMエージェントを提案する。
論文 参考訳(メタデータ) (2025-04-29T06:50:48Z) - Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。
我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Twin Graph-based Anomaly Detection via Attentive Multi-Modal Learning
for Microservice System [24.2074235652359]
我々は,マルチモーダル学習を通じて利用可能なすべてのデータモダリティをシームレスに統合するMSTGADを提案する。
本研究では,異なるモーダル間の相関関係をモデル化するために,空間的および時間的注意機構を備えたトランスフォーマーベースニューラルネットワークを構築した。
これにより、リアルタイムで自動的かつ正確に異常を検出することができる。
論文 参考訳(メタデータ) (2023-10-07T06:28:41Z) - Robust Multimodal Failure Detection for Microservice Systems [32.25907616511765]
AnoFusionは、マイクロサービスシステムに対する教師なしの障害検出アプローチである。
異種マルチモーダルデータの相関を学習し、グラフ注意ネットワーク(GAT)とGRU(Gated Recurrent Unit)を統合する。
これはそれぞれ0.857と0.922のF1スコアを達成し、最先端の故障検出手法より優れている。
論文 参考訳(メタデータ) (2023-05-30T12:39:42Z) - MMRNet: Improving Reliability for Multimodal Object Detection and
Segmentation for Bin Picking via Multimodal Redundancy [68.7563053122698]
マルチモーダル冗長性(MMRNet)を用いた信頼度の高いオブジェクト検出・分割システムを提案する。
これは、マルチモーダル冗長の概念を導入し、デプロイ中のセンサ障害問題に対処する最初のシステムである。
システム全体の出力信頼性と不確実性を測定するために,すべてのモダリティからの出力を利用する新しいラベルフリーマルチモーダル整合性(MC)スコアを提案する。
論文 参考訳(メタデータ) (2022-10-19T19:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。