Fugu-MT 論文翻訳(概要): OpaqueToolsBench: Learning Nuances of Tool Behavior Through Interaction

論文の概要: OpaqueToolsBench: Learning Nuances of Tool Behavior Through Interaction

arxiv url: http://arxiv.org/abs/2602.15197v1
Date: Mon, 16 Feb 2026 21:26:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-18 16:03:17.908808
Title: OpaqueToolsBench: Learning Nuances of Tool Behavior Through Interaction
Title（参考訳）: OpaqueToolsBench: インタラクションを通じてツール行動のニュアンスを学ぶ
Authors: Skyler Hallinan, Thejas Venkatesh, Xiang Ren, Sai Praneeth Karimireddy, Ashwin Paranjape, Yuhao Zhang, Jack Hessel,
Abstract要約: ツールコールは、Large Language Model (LLM)エージェントが現実世界のタスクを完了するのに不可欠である。既存のベンチマークでは、シンプルで完全にドキュメント化されたツールを前提としていますが、現実のツールは多くの場合不透明で、明確なベストプラクティスや障害モードが欠如しています。ツールコールトラジェクトリから実行フィードバックを観察することで,ツールドキュメントを反復的に洗練するツールオブザーバを提案する。
参考スコア（独自算出の注目度）: 41.38214226411103
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tool-calling is essential for Large Language Model (LLM) agents to complete real-world tasks. While most existing benchmarks assume simple, perfectly documented tools, real-world tools (e.g., general "search" APIs) are often opaque, lacking clear best practices or failure modes. Can LLM agents improve their performance in environments with opaque tools by interacting and subsequently improving documentation? To study this, we create OpaqueToolsBench, a benchmark consisting of three distinct task-oriented environments: general function calling, interactive chess playing, and long-trajectory agentic search. Each environment provides underspecified tools that models must learn to use effectively to complete the task. Results on OpaqueToolsBench suggest existing methods for automatically documenting tools are expensive and unreliable when tools are opaque. To address this, we propose a simple framework, ToolObserver, that iteratively refines tool documentation by observing execution feedback from tool-calling trajectories. Our approach outperforms existing methods on OpaqueToolsBench across datasets, even in relatively hard settings. Furthermore, for test-time tool exploration settings, our method is also efficient, consuming 3.5-7.5x fewer total tokens than the best baseline.
Abstract（参考訳）: ツールコールは、Large Language Model (LLM)エージェントが現実世界のタスクを完了するのに不可欠である。ほとんどの既存のベンチマークでは、シンプルで完全にドキュメント化されたツールを前提としていますが、現実のツール(一般的な"検索"APIなど)は不透明で、明確なベストプラクティスや障害モードが欠如しています。 LLMエージェントは、対話してドキュメントを改善することで、不透明なツールで、彼らのパフォーマンスを改善することができるか? これを研究するために,OpaqueToolsBenchという,汎用関数呼び出し,対話型チェスプレイ,長期的エージェント検索という,3つの異なるタスク指向環境で構成されるベンチマークを開発した。各環境は、モデルがそのタスクを完了させるために効果的に使用することを学ばなければならない、不特定なツールを提供する。 OpaqueToolsBenchの結果は、ツールが不透明な場合には、ツールの自動ドキュメンテーションの方法が高価で信頼性が低いことを示唆している。これを解決するために,ツールコールトラジェクトリからの実行フィードバックを観察することで,ツールドキュメントを反復的に洗練するシンプルなフレームワークであるToolObserverを提案する。当社のアプローチは,比較的厳しい設定でも,データセット間でOpaqueToolsBenchの既存メソッドよりも優れています。さらに,テスト時間ツール探索設定では,最適基準よりも3.5-7.5倍少ないトークンを消費する。

論文の概要: OpaqueToolsBench: Learning Nuances of Tool Behavior Through Interaction

関連論文リスト