論文の概要: From Observability Data to Diagnosis: An Evolving Multi-agent System for Incident Management in Cloud Systems
- arxiv url: http://arxiv.org/abs/2510.24145v1
- Date: Tue, 28 Oct 2025 07:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.890929
- Title: From Observability Data to Diagnosis: An Evolving Multi-agent System for Incident Management in Cloud Systems
- Title(参考訳): 可観測性データから診断へ:クラウドシステムにおけるインシデント管理のための進化型マルチエージェントシステム
- Authors: Yu Luo, Jiamin Jiang, Jingfei Feng, Lei Tao, Qingliang Zhang, Xidao Wen, Yongqian Sun, Shenglin Zhang, Jielong Huang, Nan Qi, Dan Pei,
- Abstract要約: OpsAgentは、インシデント管理のための軽量で自己進化型のマルチエージェントシステムである。
トレーニング不要のデータプロセッサを使用して、異種可観測データを構造化されたテキスト記述に変換する。
OpsAgentは一般化可能で、解釈可能で、コスト効率が高く、自己進化的です。
- 参考スコア(独自算出の注目度): 9.599544696235382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incident management (IM) is central to the reliability of large-scale cloud systems. Yet manual IM, where on-call engineers examine metrics, logs, and traces is labor-intensive and error-prone in the face of massive and heterogeneous observability data. Existing automated IM approaches often struggle to generalize across systems, provide limited interpretability, and incur high deployment costs, which hinders adoption in practice. In this paper, we present OpsAgent, a lightweight, self-evolving multi-agent system for IM that employs a training-free data processor to convert heterogeneous observability data into structured textual descriptions, along with a multi-agent collaboration framework that makes diagnostic inference transparent and auditable. To support continual capability growth, OpsAgent also introduces a dual self-evolution mechanism that integrates internal model updates with external experience accumulation, thereby closing the deployment loop. Comprehensive experiments on the OPENRCA benchmark demonstrate state-of-the-art performance and show that OpsAgent is generalizable, interpretable, cost-efficient, and self-evolving, making it a practically deployable and sustainable solution for long-term operation in real-world cloud systems.
- Abstract(参考訳): インシデント管理(IM)は、大規模クラウドシステムの信頼性の中心である。
しかし、オンコールエンジニアがメトリクス、ログ、トレースを調べる手動IMは、大規模で異質な観測データに直面して、労働集約的でエラーを起こします。
既存の自動化IMアプローチは、システム全体の一般化、限定的な解釈可能性の提供、そしてデプロイコストの増大に苦慮し、実際に導入されるのを妨げている。
本稿では,IM用軽量自己進化型マルチエージェントシステムであるOpsAgentを紹介し,不均一な可観測データを構造化されたテキスト記述に変換するトレーニングフリーデータプロセッサと,診断推論を透過的で監査可能なマルチエージェント協調フレームワークを提案する。
継続的な機能拡張をサポートするため、OpsAgentでは、内部モデルの更新と外部エクスペリエンスの蓄積を統合し、デプロイメントループを閉じる、デュアル自己進化メカニズムも導入している。
OPENRCAベンチマークの総合的な実験は、最先端のパフォーマンスを示し、OpsAgentが一般化可能で、解釈可能で、コスト効率が高く、自己進化的であることを示し、現実のクラウドシステムにおける長期的な運用のための実用的かつ持続可能なソリューションであることを示した。
関連論文リスト
- A Survey of Data Agents: Emerging Paradigm or Overstated Hype? [66.1526688475023]
現在「データエージェント」は用語的曖昧さと不整合性に悩まされている。
この調査では、データエージェントのための最初の体系的な階層型分類を紹介した。
プロアクティブな生成データエージェントの出現を想定する、先見的なロードマップで締めくくります。
論文 参考訳(メタデータ) (2025-10-27T17:54:07Z) - A Survey on Agentic Multimodal Large Language Models [84.18778056010629]
エージェントマルチモーダル大言語モデル(Agentic MLLMs)に関する総合的な調査を行う。
我々は,エージェントMLLMの新たなパラダイムを探求し,その概念的基盤を明確にし,従来のMLLMエージェントとの特徴を区別する。
コミュニティのためのこの分野の研究をさらに加速するため、エージェントMLLMを開発するためのオープンソースのトレーニングフレームワーク、トレーニングおよび評価データセットをコンパイルする。
論文 参考訳(メタデータ) (2025-10-13T04:07:01Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning [73.91893534088798]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回る。
論文 参考訳(メタデータ) (2025-09-16T17:57:03Z) - Multi-Agent Data Visualization and Narrative Generation [1.935127147843886]
データ分析ワークフローを自動化する軽量なマルチエージェントシステムを提案する。
提案手法は,ハイブリッドマルチエージェントアーキテクチャと決定論的コンポーネントを組み合わせることで,重要な論理を戦略的に外部化する。
このシステムは、完全な再生なしに外科的修正を可能にする、粒度の細かいモジュラー出力を提供する。
論文 参考訳(メタデータ) (2025-08-30T12:39:55Z) - Profile-Aware Maneuvering: A Dynamic Multi-Agent System for Robust GAIA Problem Solving by AWorld [20.01452161733642]
我々はAWorldフレームワークで動的マルチエージェントシステム(MAS)を提案する。
実行エージェントは、オンデマンドの動的操作を提供するガードエージェントによって監督される。
本システムは,GAIAの高名なリーダボード上でのオープンソースプロジェクトの中で,第1位を達成している。
論文 参考訳(メタデータ) (2025-08-13T15:46:25Z) - AgentOps: Enabling Observability of LLM Agents [12.49728300301026]
大規模言語モデル(LLM)エージェントは、自律的で非決定論的行動のため、AI安全性に重大な懸念を提起する。
本稿では,エージェントのライフサイクル全体を通じて追跡されるべきアーティファクトと関連するデータを特定し,効果的な観測可能性を実現するための,AgentOpsの包括的な分類法を提案する。
私たちの分類は、監視、ロギング、分析をサポートするAgentOpsインフラストラクチャを設計、実装するためのリファレンステンプレートとして機能します。
論文 参考訳(メタデータ) (2024-11-08T02:31:03Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - MMRNet: Improving Reliability for Multimodal Object Detection and
Segmentation for Bin Picking via Multimodal Redundancy [68.7563053122698]
マルチモーダル冗長性(MMRNet)を用いた信頼度の高いオブジェクト検出・分割システムを提案する。
これは、マルチモーダル冗長の概念を導入し、デプロイ中のセンサ障害問題に対処する最初のシステムである。
システム全体の出力信頼性と不確実性を測定するために,すべてのモダリティからの出力を利用する新しいラベルフリーマルチモーダル整合性(MC)スコアを提案する。
論文 参考訳(メタデータ) (2022-10-19T19:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。