論文の概要: OpaqueToolsBench: Learning Nuances of Tool Behavior Through Interaction
- arxiv url: http://arxiv.org/abs/2602.15197v1
- Date: Mon, 16 Feb 2026 21:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.908808
- Title: OpaqueToolsBench: Learning Nuances of Tool Behavior Through Interaction
- Title(参考訳): OpaqueToolsBench: インタラクションを通じてツール行動のニュアンスを学ぶ
- Authors: Skyler Hallinan, Thejas Venkatesh, Xiang Ren, Sai Praneeth Karimireddy, Ashwin Paranjape, Yuhao Zhang, Jack Hessel,
- Abstract要約: ツールコールは、Large Language Model (LLM)エージェントが現実世界のタスクを完了するのに不可欠である。
既存のベンチマークでは、シンプルで完全にドキュメント化されたツールを前提としていますが、現実のツールは多くの場合不透明で、明確なベストプラクティスや障害モードが欠如しています。
ツールコールトラジェクトリから実行フィードバックを観察することで,ツールドキュメントを反復的に洗練するツールオブザーバを提案する。
- 参考スコア(独自算出の注目度): 41.38214226411103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-calling is essential for Large Language Model (LLM) agents to complete real-world tasks. While most existing benchmarks assume simple, perfectly documented tools, real-world tools (e.g., general "search" APIs) are often opaque, lacking clear best practices or failure modes. Can LLM agents improve their performance in environments with opaque tools by interacting and subsequently improving documentation? To study this, we create OpaqueToolsBench, a benchmark consisting of three distinct task-oriented environments: general function calling, interactive chess playing, and long-trajectory agentic search. Each environment provides underspecified tools that models must learn to use effectively to complete the task. Results on OpaqueToolsBench suggest existing methods for automatically documenting tools are expensive and unreliable when tools are opaque. To address this, we propose a simple framework, ToolObserver, that iteratively refines tool documentation by observing execution feedback from tool-calling trajectories. Our approach outperforms existing methods on OpaqueToolsBench across datasets, even in relatively hard settings. Furthermore, for test-time tool exploration settings, our method is also efficient, consuming 3.5-7.5x fewer total tokens than the best baseline.
- Abstract(参考訳): ツールコールは、Large Language Model (LLM)エージェントが現実世界のタスクを完了するのに不可欠である。
ほとんどの既存のベンチマークでは、シンプルで完全にドキュメント化されたツールを前提としていますが、現実のツール(一般的な"検索"APIなど)は不透明で、明確なベストプラクティスや障害モードが欠如しています。
LLMエージェントは、対話してドキュメントを改善することで、不透明なツールで、彼らのパフォーマンスを改善することができるか?
これを研究するために,OpaqueToolsBenchという,汎用関数呼び出し,対話型チェスプレイ,長期的エージェント検索という,3つの異なるタスク指向環境で構成されるベンチマークを開発した。
各環境は、モデルがそのタスクを完了させるために効果的に使用することを学ばなければならない、不特定なツールを提供する。
OpaqueToolsBenchの結果は、ツールが不透明な場合には、ツールの自動ドキュメンテーションの方法が高価で信頼性が低いことを示唆している。
これを解決するために,ツールコールトラジェクトリからの実行フィードバックを観察することで,ツールドキュメントを反復的に洗練するシンプルなフレームワークであるToolObserverを提案する。
当社のアプローチは,比較的厳しい設定でも,データセット間でOpaqueToolsBenchの既存メソッドよりも優れています。
さらに,テスト時間ツール探索設定では,最適基準よりも3.5-7.5倍少ないトークンを消費する。
関連論文リスト
- ToolTok: Tool Tokenization for Efficient and Generalizable GUI Agents [16.06309106596998]
ToolTokはGUIエージェントのための多段階パスフィニングの新しいパラダイムである。
我々は,人間のインタラクションの習慣に沿ったツールを考案し,学習可能なトークン埋め込みを用いて各ツールを表現する。
トークン定義質問回答,純テキスト誘導ツールの選択,視覚的パスフィニングの3つのタスクからなる,難易度の高いカリキュラムを構築した。
論文 参考訳(メタデータ) (2026-01-30T08:38:05Z) - Teaching LLMs to Learn Tool Trialing and Execution through Environment Interaction [31.689383152872534]
ToolMasterは、ツールの使用を黄金のツール呼び出しトラジェクトリの模倣から、環境とのインタラクションを通じてツールの使用を積極的に学習するフレームワークである。
ツール計画と実行のためにLLMを最適化するために、ToolMasterはトライアルと実行のパラダイムを採用している。
実験の結果、ツールマスターは、見知らぬツールや馴染みのないツールをまたいだ一般化や堅牢性という点で、既存のベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2026-01-19T06:46:33Z) - TheMCPCompany: Creating General-purpose Agents with Task-specific Tools [12.249551019598442]
TheMCPCompanyは、様々な現実世界のサービスと対話するタスクにおいて、ツールコールエージェントを評価するためのベンチマークである。
また、各タスクに手動でアノテートされた接地木ツールも提供します。
全体として、我々の研究は、最も高度な推論モデルは、より単純な環境でツールを見つけるのに効果的であるが、複雑なエンタープライズ環境をナビゲートするのに深刻な苦労をしていることを示している。
論文 参考訳(メタデータ) (2025-10-22T06:42:01Z) - EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction [56.02100384015907]
EasyToolは、多種多様で長いツールドキュメントを統一的で簡潔なツール命令に変換するフレームワークである。
トークン使用量を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-01-11T15:45:11Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。