論文の概要: ToolMisuseBench: An Offline Deterministic Benchmark for Tool Misuse and Recovery in Agentic Systems
- arxiv url: http://arxiv.org/abs/2604.01508v1
- Date: Thu, 02 Apr 2026 00:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.178376
- Title: ToolMisuseBench: An Offline Deterministic Benchmark for Tool Misuse and Recovery in Agentic Systems
- Title(参考訳): ToolMisuseBench: エージェントシステムのツールミスとリカバリのためのオフライン決定性ベンチマーク
- Authors: Akshey Sigdel, Rista Baral,
- Abstract要約: エージェントを使用するツールは、言語理解が強い場合でも、運用上の理由で失敗することが多い。
よくある原因は、無効な引数、インターフェイスのドリフト、弱い回復、非効率的な再試行行動である。
ToolMisuseBenchは、ツールの誤用とリカバリを明示的なステップ、コール、リトライの予算で評価するためのオフライン決定性ベンチマークです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool using agents often fail for operational reasons even when language understanding is strong. Common causes include invalid arguments, interface drift, weak recovery, and inefficient retry behavior. We introduce ToolMisuseBench, an offline deterministic benchmark for evaluating tool misuse and recovery under explicit step, call, and retry budgets. The benchmark covers CRUD, retrieval, file, and scheduling environments with replayable fault injection. It reports success, invalid call behavior, policy violations, recovery quality, and budgeted efficiency. We release a public dataset with 6800 tasks and a reproducible evaluation pipeline. Baseline results show fault specific recovery gains for schema aware methods, while overall success remains limited under the released authorization and hard failure settings.
- Abstract(参考訳): エージェントを使用するツールは、言語理解が強い場合でも、運用上の理由で失敗することが多い。
よくある原因は、無効な引数、インターフェイスのドリフト、弱い回復、非効率的な再試行行動である。
ToolMisuseBenchは、ツールの誤用とリカバリを明示的なステップ、コール、リトライの予算で評価するためのオフライン決定性ベンチマークです。
このベンチマークでは、リプレイ可能なフォールトインジェクションを備えたCRUD、検索、ファイル、スケジューリング環境がカバーされている。
成功、不正な呼び出し行動、ポリシー違反、回復の質、予算化された効率を報告します。
6800のタスクと再現可能な評価パイプラインを備えたパブリックデータセットをリリースします。
ベースラインの結果は、スキーマ対応メソッドの障害固有のリカバリが向上することを示しているが、全体的な成功は、リリースされた承認とハード障害設定の下で制限されている。
関連論文リスト
- AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - ToolMATH: A Math Tool Benchmark for Realistic Long-Horizon Multi-Tool Reasoning [11.99927786717109]
ToolMATHは、数学の問題をツールセットによる制御された正当性チェック可能なベンチマークに変換する。
ToolMATHは、ツール拡張されたエージェントの障害モードの実行可能な診断証拠を提供する。
論文 参考訳(メタデータ) (2026-02-24T09:23:12Z) - Robust and Efficient Tool Orchestration via Layered Execution Structures with Reflective Correction [55.13278005189741]
私たちは、高レベルのツール依存関係をキャプチャする階層化された実行構造を学ぶために、ツールオーケストレーションをモデル化します。
本稿では,局所的にエラーを検出し,修正するスキーマ対応反射補正機構を提案する。
この設計では、エラーを個々のツールコールに限定し、実行軌跡全体の再計画を避ける。
論文 参考訳(メタデータ) (2026-02-21T22:20:01Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Guardian: Detecting Robotic Planning and Execution Errors with Vision-Language Models [53.20969621498248]
本稿では,多種多様な計画および実行障害を生成するために,軌道を手続き的に乱す自動ロボット故障合成手法を提案する。
RLBench-Fail, BridgeDataV2-Fail, UR5-Failの3つの新しい故障検出ベンチマークを構築した。
次に、詳細な障害推論と検出のためのマルチビューイメージを備えたVLMであるGuardianをトレーニングします。
論文 参考訳(メタデータ) (2025-12-01T17:57:27Z) - Just-in-time Episodic Feedback Hinter: Leveraging Offline Knowledge to Improve LLM Agents Adaptation [77.90555621662345]
JEF Hinterは、オフライントレースをコンパクトでコンテキスト対応のヒントに蒸留するエージェントシステムである。
ズーム機構は、長い軌道における決定的なステップを強調し、戦略と落とし穴の両方をキャプチャする。
MiniWoB++、WorkArena-L1、WebArena-Liteの実験は、JSF Hinterが一貫して強力なベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-05T21:34:42Z) - PALADIN: Self-Correcting Language Model Agents to Cure Tool-Failure Cases [2.3181214107210235]
PALADINは、系統的な障害注入によって構築された5万以上のリカバリアノテーション付き軌道を走行する。
トレーニングでは、LoRAベースの微調整を使用して、回復能力を注入しながらベース能力を維持する。
このアプローチは、トレーニング分布を超えた新しい失敗に一般化する。
論文 参考訳(メタデータ) (2025-09-25T10:37:30Z) - Failure Makes the Agent Stronger: Enhancing Accuracy through Structured Reflection for Reliable Tool Interactions [10.598440138966028]
現在の自己回帰のプラクティスは、プロンプトや一方的な推論に依存しています。
提案する構造的リフレクションは, エラーから修復までの経路を明示的で制御可能な, 訓練可能な動作に変換する。
BFCL v3とTool-Reflection-Benchの実験では、マルチターンツールコールの成功とエラー回復、冗長呼び出しの削減が大幅に向上した。
論文 参考訳(メタデータ) (2025-09-23T09:35:49Z) - A Comprehensive Benchmarking Analysis of Fault Recovery in Stream Processing Frameworks [1.3398445165628463]
本稿では, クラウドネイティブ環境における障害復旧性能, 安定性, 回復時間に関する包括的解析を行う。
以上の結果から,Flinkは最も安定しており,最高の障害回復の1つであることが示唆された。
K Kafka Streamsは適切なフォールトリカバリパフォーマンスと安定性を示しているが、イベントレイテンシは高い。
論文 参考訳(メタデータ) (2024-04-09T10:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。