論文の概要: Exploring Autonomous Agents: A Closer Look at Why They Fail When Completing Tasks
- arxiv url: http://arxiv.org/abs/2508.13143v1
- Date: Mon, 18 Aug 2025 17:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.522523
- Title: Exploring Autonomous Agents: A Closer Look at Why They Fail When Completing Tasks
- Title(参考訳): 自律エージェントの探索:タスクの完了時に失敗する理由
- Authors: Ruofan Lu, Yichen Li, Yintong Huo,
- Abstract要約: 我々は、自律エージェントを厳格に評価するために設計された34のプログラム可能なタスクのベンチマークを示す。
LLMバックボーンと組み合わせた3つの人気のあるオープンソースエージェントフレームワークを評価し,タスク完了率約50%を観察した。
我々は,障害の原因を3段階に分類し,計画上のエラー,タスク実行の問題,誤った応答生成を強調する。
- 参考スコア(独自算出の注目度): 8.218266805768687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agent systems powered by Large Language Models (LLMs) have demonstrated promising capabilities in automating complex tasks. However, current evaluations largely rely on success rates without systematically analyzing the interactions, communication mechanisms, and failure causes within these systems. To bridge this gap, we present a benchmark of 34 representative programmable tasks designed to rigorously assess autonomous agents. Using this benchmark, we evaluate three popular open-source agent frameworks combined with two LLM backbones, observing a task completion rate of approximately 50%. Through in-depth failure analysis, we develop a three-tier taxonomy of failure causes aligned with task phases, highlighting planning errors, task execution issues, and incorrect response generation. Based on these insights, we propose actionable improvements to enhance agent planning and self-diagnosis capabilities. Our failure taxonomy, together with mitigation advice, provides an empirical foundation for developing more robust and effective autonomous agent systems in the future.
- Abstract(参考訳): LLM(Large Language Models)を利用した自律エージェントシステムは、複雑なタスクを自動化する上で有望な能力を実証している。
しかし、現在の評価は、システム内の相互作用、通信メカニズム、障害原因を体系的に分析することなく、成功率に大きく依存している。
このギャップを埋めるために、自律エージェントを厳格に評価するために設計された34のプログラム可能なタスクのベンチマークを示す。
このベンチマークを用いて、2つのLCMバックボーンを組み合わせた3つの人気のあるオープンソースエージェントフレームワークを評価し、タスク完了率約50%を観察した。
詳細な失敗分析を通じて,タスクフェーズに沿った障害原因の3段階分類を開発し,計画エラー,タスク実行問題,誤った応答生成を強調する。
これらの知見に基づき,エージェント計画と自己診断能力を高めるための実用的な改善を提案する。
我々の失敗分類学は、緩和アドバイスとともに、将来より堅牢で効果的な自律エージェントシステムを開発するための実証的な基盤を提供する。
関連論文リスト
- From MAS to MARS: Coordination Failures and Reasoning Trade-offs in Hierarchical Multi-Agent Robotic Systems within a Healthcare Scenario [3.5262044630932254]
マルチエージェントロボットシステム(MARS)は、物理的およびタスク関連の制約を統合することで、マルチエージェントシステム上に構築される。
高度なマルチエージェントフレームワークが利用可能であるにも関わらず、実際のロボットへのデプロイメントは制限されている。
論文 参考訳(メタデータ) (2025-08-06T17:54:10Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。
我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。