論文の概要: Diagnosing Failure Root Causes in Platform-Orchestrated Agentic Systems: Dataset, Taxonomy, and Benchmark
- arxiv url: http://arxiv.org/abs/2509.23735v1
- Date: Sun, 28 Sep 2025 08:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.409949
- Title: Diagnosing Failure Root Causes in Platform-Orchestrated Agentic Systems: Dataset, Taxonomy, and Benchmark
- Title(参考訳): プラットフォームオーケストレーションエージェントシステムにおける障害根の診断:データセット、分類学、ベンチマーク
- Authors: Xuyan Ma, Xiaofei Xie, Yawen Wang, Junjie Wang, Boyu Wu, Mingyang Li, Qing Wang,
- Abstract要約: 本稿では,プラットフォーム構築型エージェントシステムの根本原因同定について述べる。
我々は、10のエージェントシステムから307の障害ログを含むデータセットAgentFailを構築し、それぞれが障害を根本原因にリンクする詳細なアノテーションを持つ。
障害の原因を特徴付ける分類法を開発し、異なるプラットフォームやタスク領域にまたがる分布を解析する。
- 参考スコア(独自算出の注目度): 23.342903884925576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic systems consisting of multiple LLM-driven agents coordinating through tools and structured interactions, are increasingly deployed for complex reasoning and problem-solving tasks. At the same time, emerging low-code and template-based agent development platforms (e.g., Dify) enable users to rapidly build and orchestrate agentic systems, which we refer to as platform-orchestrated agentic systems. However, these systems are also fragile and it remains unclear how to systematically identify their potential failure root cause. This paper presents a study of root cause identification of these platform-orchestrated agentic systems. To support this initiative, we construct a dataset AgentFail containing 307 failure logs from ten agentic systems, each with fine-grained annotations linking failures to their root causes. We additionally utilize counterfactual reasoning-based repair strategy to ensure the reliability of the annotation. Building on the dataset, we develop a taxonomy that characterizes failure root causes and analyze their distribution across different platforms and task domains. Furthermore, we introduce a benchmark that leverages LLMs for automatically identifying root causes, in which we also utilize the proposed taxonomy as guidance for LLMs. Results show that the taxonomy can largely improve the performance, thereby confirming its utility. Nevertheless, the accuracy of root cause identification reaches at most 33.6%, which indicates that this task still remains challenging. In light of these results, we also provide actionable guidelines for building such agentic systems. In summary, this paper provides a reliable dataset of failure root cause for platform-orchestrated agentic systems, corresponding taxonomy and benchmark, which serves as a foundation for advancing the development of more reliable agentic systems.
- Abstract(参考訳): ツールと構造化相互作用を協調する複数のLDM駆動エージェントからなるエージェントシステムは、複雑な推論や問題解決タスクのためにますます多くデプロイされている。
同時に、新しいローコードおよびテンプレートベースのエージェント開発プラットフォーム(例えば、Dify)は、ユーザが迅速にエージェントシステムを構築し、オーケストレーションすることを可能にする。
しかし、これらのシステムは脆弱であり、その潜在的な障害の原因を体系的にどうやって特定するかは不明だ。
本稿では,これらのプラットフォームを組み込んだエージェントシステムの根本原因同定について述べる。
このイニシアチブをサポートするために,10のエージェントシステムから307の障害ログを含むデータセットAgentFailを構築した。
また,アノテーションの信頼性を確保するために,反実的推論に基づく修復戦略も活用する。
データセットに基づいて、障害の原因を特徴付ける分類法を開発し、異なるプラットフォームやタスクドメインにまたがる分布を分析する。
さらに,LLMを根本原因の自動同定に活用するベンチマークを導入するとともに,LLMのガイダンスとして提案した分類法も活用する。
その結果, 分類学は性能を大幅に改善し, 有用性を確認した。
それでも根本原因同定の精度は33.6%に達しており、この課題は依然として困難なままであることを示している。
これらの結果を踏まえ、エージェントシステム構築のための実用的なガイドラインも提示する。
要約して,本論文は,より信頼性の高いエージェントシステム開発を促進する基盤となる,プラットフォームに適合したエージェントシステム,それに対応する分類とベンチマークに対して,障害原因の信頼性の高いデータセットを提供する。
関連論文リスト
- An Empirical Study on Failures in Automated Issue Solving [12.571536148821144]
我々は,SWE-Bench-Verifiedの自動問題解決タスクにおいて,パイプラインベースとエージェントアーキテクチャの両方にまたがる3つのSOTAツールの性能と効率を分析する。
ハイレベルなパフォーマンス指標から根本原因分析に移行するために,150件の障害事例の体系的手動分析を行った。
その結果、2つのアーキテクチャパラダイムの間には明確な失敗の指紋が明らかとなり、ほとんどのエージェント的失敗は、欠陥のある推論と認知的デッドロックに起因する。
論文 参考訳(メタデータ) (2025-09-17T13:07:52Z) - Exploring Autonomous Agents: A Closer Look at Why They Fail When Completing Tasks [8.218266805768687]
我々は、自律エージェントを厳格に評価するために設計された34のプログラム可能なタスクのベンチマークを示す。
LLMバックボーンと組み合わせた3つの人気のあるオープンソースエージェントフレームワークを評価し,タスク完了率約50%を観察した。
我々は,障害の原因を3段階に分類し,計画上のエラー,タスク実行の問題,誤った応答生成を強調する。
論文 参考訳(メタデータ) (2025-08-18T17:55:22Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。