論文の概要: TrioXpert: An Automated Incident Management Framework for Microservice System
- arxiv url: http://arxiv.org/abs/2506.10043v2
- Date: Wed, 22 Oct 2025 07:04:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:07.825733
- Title: TrioXpert: An Automated Incident Management Framework for Microservice System
- Title(参考訳): TrioXpert: マイクロサービスシステムのための自動インシデント管理フレームワーク
- Authors: Yongqian Sun, Yu Luo, Xidao Wen, Yuan Yuan, Xiaohui Nie, Shenglin Zhang, Tong Liu, Xi Luo,
- Abstract要約: TrioXpertは、マルチモーダルデータを完全に活用できるエンドツーエンドのインシデント管理フレームワークである。
複数のタスクを同時に処理するために、大きな言語モデル(LLM)を用いた協調推論機構を採用している。
Lenovoの製品環境にデプロイされ、診断効率と精度が大幅に向上した。
- 参考スコア(独自算出の注目度): 17.072348902582217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated incident management plays a pivotal role in large-scale microservice systems. However, many existing methods rely solely on single-modal data (e.g., metrics, logs, and traces) and struggle to simultaneously address multiple downstream tasks, including anomaly detection (AD), failure triage (FT), and root cause localization (RCL). Moreover, the lack of clear reasoning evidence in current techniques often leads to insufficient interpretability. To address these limitations, we propose TrioXpert, an end-to-end incident management framework capable of fully leveraging multimodal data. TrioXpert designs three independent data processing pipelines based on the inherent characteristics of different modalities, comprehensively characterizing the operational status of microservice systems from both numerical and textual dimensions. It employs a collaborative reasoning mechanism using large language models (LLMs) to simultaneously handle multiple tasks while providing clear reasoning evidence to ensure strong interpretability. We conducted extensive evaluations on two microservice system datasets, and the experimental results demonstrate that TrioXpert achieves outstanding performance in AD (improving by 4.7% to 57.7%), FT (improving by 2.1% to 40.6%), and RCL (improving by 1.6% to 163.1%) tasks. TrioXpert has also been deployed in Lenovo's production environment, demonstrating substantial gains in diagnostic efficiency and accuracy.
- Abstract(参考訳): 大規模なマイクロサービスシステムでは、自動インシデント管理が重要な役割を担います。
しかし、既存の多くのメソッドはシングルモーダルデータ(メトリクス、ログ、トレースなど)にのみ依存しており、異常検出(AD)、障害トリアージ(FT)、ルート原因ローカライゼーション(RCL)など、複数の下流タスクに同時に対処するのに苦労している。
さらに、現在の手法における明確な推論証拠の欠如は、しばしば解釈可能性の不足につながる。
これらの制約に対処するため,マルチモーダルデータを完全に活用可能なエンドツーエンドインシデント管理フレームワークであるTrioXpertを提案する。
TrioXpertは、異なるモードの固有の特性に基づいて、3つの独立したデータ処理パイプラインを設計し、数値次元とテキスト次元の両方からマイクロサービスシステムの運用状態を包括的に特徴付けている。
大規模言語モデル(LLM)を用いた協調推論機構を使用して、複数のタスクを同時に処理し、強い解釈可能性を保証するための明確な推論証拠を提供する。
2つのマイクロサービスシステムデータセットについて広範な評価を行い、実験の結果、TrioXpertはAD(4.7%から57.7%)、FT(2.1%から40.6%)、RCL(1.6%から163.1%)タスクで優れたパフォーマンスを実現していることが示された。
TrioXpertはLenovoの製品環境にもデプロイされており、診断効率と精度が大幅に向上している。
関連論文リスト
- UV-M3TL: A Unified and Versatile Multimodal Multi-Task Learning Framework for Assistive Driving Perception [71.19234323863314]
運転者の行動、運転者の感情、車両の行動、交通状況を同時に認識する枠組みを提案する。
本フレームワークは,デュアルブランチ空間チャネルのマルチモーダル埋め込みと適応的特徴分離型マルチタスク損失の2つのコアコンポーネントを組み込んでいる。
提案手法をAIDEデータセット上で評価し,UV-M3TLが4つのタスクすべてにおいて最先端の性能を達成することを示す実験結果を得た。
論文 参考訳(メタデータ) (2026-02-02T03:35:24Z) - Hypothesize-Then-Verify: Speculative Root Cause Analysis for Microservices with Pathwise Parallelism [19.31110304702373]
SpecRCAは、thithypothesize-then-verifyパラダイムを採用した投機的根本原因分析フレームワークである。
AIOps 2022に関する予備的な実験では、既存のアプローチよりも精度と効率が優れていることが示されている。
論文 参考訳(メタデータ) (2026-01-06T05:58:25Z) - Uni-FinLLM: A Unified Multimodal Large Language Model with Modular Task Heads for Micro-Level Stock Prediction and Macro-Level Systemic Risk Assessment [6.015507338546882]
金融機関や規制機関は、株価変動からシステム的脆弱性へのリスクを評価するために、異種データを統合するシステムを必要としている。
共用トランスフォーマーバックボーンとモジュールタスクヘッドを併用した統合マルチモーダル大言語モデルUni-FinLLMを提案する。
論文 参考訳(メタデータ) (2026-01-06T03:22:51Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Localized Kernel Projection Outlyingness: A Two-Stage Approach for Multi-Modal Outlier Detection [0.0]
Two-Stage LKPLOは、新しいマルチステージアウトレイラ検出フレームワークである。
従来の射影的手法の制約を克服する。
挑戦的なデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-28T03:53:46Z) - Traceability and Accountability in Role-Specialized Multi-Agent LLM Pipelines [9.340611077939828]
我々は、トレーサブルで説明可能なパイプライン、つまり明確な役割、構造化されたハンドオフ、保存されたレコードを持つシステムについて研究する。
3つのベンチマークで3つの最先端LCMの8つの構成を評価し、エラーの発生点、展開方法、修正方法について分析する。
論文 参考訳(メタデータ) (2025-10-08T23:26:44Z) - LLM-based Multi-Agent Blackboard System for Information Discovery in Data Science [69.1690891731311]
従来のAIモデルのためのブラックボードアーキテクチャに着想を得た,新しいマルチエージェント通信パラダイムを提案する。
このフレームワークでは、中央エージェントが共有ブラックボードにリクエストをポストし、自律的な従属エージェントがその能力に基づいて応答する。
明示的なデータ発見を必要とする3つのベンチマークに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-09-30T22:34:23Z) - Revealing Multimodal Causality with Large Language Models [80.95511545591107]
非構造化データからマルチモーダル因果発見のための新しいフレームワークであるMLLM-CDを提案する。
本研究は,(1)真のマルチモーダル因子を同定する新しいコントラッシブ・ファクター発見モジュール,(2)発見要因間の因果関係を推測する統計的因果構造発見モジュール,(3)発見結果を洗練するための反復的マルチモーダル・カウンターファクト・推論モジュールの3つの重要な構成要素から構成される。
合成と実世界の両方のデータセットに対する大規模な実験は、提案したMLLM-CDの有効性を実証している。
論文 参考訳(メタデータ) (2025-09-22T13:45:17Z) - MicroRCA-Agent: Microservice Root Cause Analysis Method Based on Large Language Model Agents [12.160412894251406]
MicroRCA-Agentは、大規模な言語モデルエージェントに基づいたマイクロサービスの根本原因分析のための革新的なソリューションである。
提案したソリューションは、複雑なマイクロサービス障害シナリオにおいて優れたパフォーマンスを示し、最終的なスコアは50.71である。
論文 参考訳(メタデータ) (2025-09-19T05:57:03Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - TAMO:Fine-Grained Root Cause Analysis via Tool-Assisted LLM Agent with Multi-Modality Observation Data in Cloud-Native Systems [33.5606443790794]
大規模言語モデル(LLM)は、コンテキスト推論とドメイン知識の統合においてブレークスルーをもたらした。
細粒度根本原因解析のための多モード観測データ,すなわちTAMOを用いたツール支援LLMエージェントを提案する。
論文 参考訳(メタデータ) (2025-04-29T06:50:48Z) - Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。
我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - Multimodal Task Representation Memory Bank vs. Catastrophic Forgetting in Anomaly Detection [6.991692485111346]
教師なし連続異常検出(UCAD)はマルチタスク表現学習において大きな課題に直面している。
本稿では,MTRMB(Multimodal Task Representation Memory Bank)方式を提案する。
MVtec AD と VisA データセットの実験では、MTRMB の優位性が示され、平均検出精度は 0.921 である。
論文 参考訳(メタデータ) (2025-02-10T06:49:54Z) - FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning [5.65203350495478]
MLLMの推論能力を評価するためのベンチマークであるFCMR(Financial Cross-Modal Multi-Hop Reasoning)を提案する。
FCMRは3つの難易度(易度、中度、硬度)に分類される。
この新しいベンチマークの実験では、最先端のMLLMでさえ苦戦しており、最高の性能のモデルは最も難しいレベルでは30.4%の精度しか達成していない。
論文 参考訳(メタデータ) (2024-12-17T05:50:55Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Twin Graph-based Anomaly Detection via Attentive Multi-Modal Learning
for Microservice System [24.2074235652359]
我々は,マルチモーダル学習を通じて利用可能なすべてのデータモダリティをシームレスに統合するMSTGADを提案する。
本研究では,異なるモーダル間の相関関係をモデル化するために,空間的および時間的注意機構を備えたトランスフォーマーベースニューラルネットワークを構築した。
これにより、リアルタイムで自動的かつ正確に異常を検出することができる。
論文 参考訳(メタデータ) (2023-10-07T06:28:41Z) - Robust Multimodal Failure Detection for Microservice Systems [32.25907616511765]
AnoFusionは、マイクロサービスシステムに対する教師なしの障害検出アプローチである。
異種マルチモーダルデータの相関を学習し、グラフ注意ネットワーク(GAT)とGRU(Gated Recurrent Unit)を統合する。
これはそれぞれ0.857と0.922のF1スコアを達成し、最先端の故障検出手法より優れている。
論文 参考訳(メタデータ) (2023-05-30T12:39:42Z) - MMRNet: Improving Reliability for Multimodal Object Detection and
Segmentation for Bin Picking via Multimodal Redundancy [68.7563053122698]
マルチモーダル冗長性(MMRNet)を用いた信頼度の高いオブジェクト検出・分割システムを提案する。
これは、マルチモーダル冗長の概念を導入し、デプロイ中のセンサ障害問題に対処する最初のシステムである。
システム全体の出力信頼性と不確実性を測定するために,すべてのモダリティからの出力を利用する新しいラベルフリーマルチモーダル整合性(MC)スコアを提案する。
論文 参考訳(メタデータ) (2022-10-19T19:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。