論文の概要: When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents
- arxiv url: http://arxiv.org/abs/2606.05806v1
- Date: Thu, 04 Jun 2026 07:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.626666
- Title: When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents
- Title(参考訳): ツールは失敗した: LLMエージェントの動的リプランニングと異常回復のベンチマーク
- Authors: Dongsheng Zhu, Xuchen Ma, Yucheng Shen, Xiang Li, Yukun Zhao, Shuaiqiang Wang, Lingyong Yan, Dawei Yin,
- Abstract要約: 既存のベンチマークでは、LLMにおけるツール統合推論を理想化された'ハッピーパス'に基づいて評価している。
我々はTIRエージェントの動的経路探索とエラー回復のためのベンチマークであるToolMazeを紹介する。
- 参考スコア(独自算出の注目度): 48.32450507410869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks evaluate Tool-Integrated Reasoning (TIR) in LLMs on idealized ''happy paths'', largely overlooking real-world tool failures. We introduce ToolMaze, a benchmark for dynamic path discovery and error recovery in TIR agents. To separate systematic replanning from blind trial-and-error, ToolMaze adopts a two-dimensional design: DAG-based topological complexity and a $2 \times 2$ taxonomy of tool perturbations (explicit/implicit, transient/permanent). Evaluations show that perturbations degrade performance across nearly all models, with the sharpest drops under implicit semantic failures. Driven by systemic over-trust in corrupted outputs, Perturbation Recovery Rate (PRR) plummets by around 37\% in these scenarios, while complex topologies trap agents in futile trial-and-error loops. Crucially, agentic fault-tolerance improves with model scale $3.66\times$ slower than basic task execution, highlighting dynamic replanning as a distinct bottleneck unaddressed by model scaling or prompting. Data and code are available at https://github.com/Zhudongsheng75/ToolMaze.
- Abstract(参考訳): 既存のベンチマークでは、LLMのツール統合推論(TIR)を理想化された'ハッピーパス'に基づいて評価している。
本稿では,TIRエージェントの動的経路探索とエラー回復のためのベンチマークであるToolMazeを紹介する。
盲目的の試行錯誤から体系的な再計画を分離するために、ToolMazeでは、DAGベースのトポロジ的複雑性と、ツール摂動(明示的/単純、過渡的/永続的)の2ドル2セントの分類という、2次元の設計を採用しています。
評価によると、摂動は、ほとんどすべてのモデルでパフォーマンスを低下させ、暗黙のセマンティックな障害の下で最も鋭いドロップを発生させる。
腐敗したアウトプットにおける系統的過信によって駆動される摂動回復率(PRR)は、これらのシナリオで約37\%低下する一方、複雑なトポロジは、無駄な試行錯誤ループでエージェントをトラップする。
決定的に言えば、エージェント的フォールトトレランスは、基本的なタスク実行よりも3.66\times$遅いモデルスケールで改善され、動的リプランニングは、モデルスケーリングやプロンプトによって守られない、明確なボトルネックとして強調される。
データとコードはhttps://github.com/Zhudongsheng75/ToolMaze.comで入手できる。
関連論文リスト
- A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks [25.713629634281077]
ツール・シークエンス・エボリューションによるタスク・シンセサイザー(TASTE: Task Synthesis from Tool Sequence Evolution)を提案する。
TASTEはクラスタリングを通じてプールから代表シーケンスを選択し、それらを完全なベンチマークタスクにインスタンス化し、難易度進化を通じてそれらを洗練する。
以上の結果から,既存のベンチマークにおける高いスコアは,頑健なタスク解決能力よりも飽和度を反映していることが示唆された。
論文 参考訳(メタデータ) (2026-05-27T14:45:59Z) - ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Graph-Based Self-Healing Tool Routing for Cost-Efficient LLM Agents [0.0]
自己修復ルータはフォールトトレラントなオーケストレーションアーキテクチャである。
ほとんどのエージェント制御フロー決定を、推論よりもルーティングとして扱う。
すべての障害はログ化されたリルートか明示的なエスカレーションのどちらかで、無音スキップはしない。
論文 参考訳(メタデータ) (2026-03-02T07:21:15Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。