論文の概要: ToolGate: Token-Efficient Pre-Call Control for Tool-Augmented Vision-Language Agents
- arxiv url: http://arxiv.org/abs/2606.03054v1
- Date: Tue, 02 Jun 2026 02:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.704245
- Title: ToolGate: Token-Efficient Pre-Call Control for Tool-Augmented Vision-Language Agents
- Title(参考訳): ToolGate:Token-Efficient Pre-Call Control for Tool-Augmented Vision-Language Agents
- Authors: Anjie Liu, Yan Song, Zhixun Chen, Ziqin Gong, Zhongwei Yu, Jun Wang,
- Abstract要約: ToolGateは、軌道テキストと単純な構造的特徴から実行/スキップの決定を予測する。
2つのQwen3-VLバックボーンで、ToolGateはトークンコストを制限なしのReActベースラインの64-69%に削減する。
- 参考スコア(独自算出の注目度): 9.793491545168575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-augmented vision-language agents can acquire external perceptual evidence through OCR, detection, segmentation, and other tools, but executing every proposed tool call is costly and sometimes unnecessary. We study the pre-call control problem: after a ReAct-style VLM agent proposes a perceptual tool call, should the call be executed, or skipped before its output enters the context? Across five benchmarks, we find that the baseline agent exhibits poor local selectivity: helpful and harmful calls occur at similar rates (11.8% vs. 9.9%), while most calls do not change the immediate forced-answer prediction. We introduce ToolGate, a lightweight external controller that predicts execute/skip decisions from trajectory text and simple structural features. Across two Qwen3-VL backbones, ToolGate reduces token cost to 64-69% of the unrestricted ReAct baseline while preserving average accuracy in cross-domain settings. With matched-domain trajectory training on Qwen3-VL-30B, it further improves average accuracy by 1.65 points. These results show that tool-augmented VLM agents benefit not only from better perceptual tools, but also from explicit control over when tool outputs are worth paying for.
- Abstract(参考訳): ツール拡張された視覚言語エージェントは、OCR、検出、セグメンテーション、その他のツールを通じて外部の知覚的エビデンスを取得することができるが、提案されたツール呼び出しはすべて、コストが高く、時には不要である。
ReActスタイルのVLMエージェントが知覚ツールコールを提案すると、その呼び出しが実行されるか、その出力がコンテキストに入る前にスキップされるのか?
5つのベンチマークで、ベースラインエージェントは局所的な選択性に乏しいことが判明した: 有益で有害な呼び出しは、同様の速度(11.8%対9.9%)で起こるが、ほとんどの呼び出しは即時強制応答予測を変えない。
我々は、トラジェクティブテキストと単純な構造的特徴から実行/スキップ決定を予測する軽量な外部コントローラであるToolGateを紹介する。
2つのQwen3-VLバックボーンの中で、ToolGateはトークンコストを制限なしのReActベースラインの64-69%に削減し、クロスドメイン設定における平均精度を保っている。
Qwen3-VL-30Bでの整合領域軌道訓練により、平均精度をさらに1.65ポイント向上する。
これらの結果から、ツール拡張VLMエージェントは、知覚ツールの改善だけでなく、ツールアウトプットの支払い価値を明確にコントロールすることによるメリットも示している。
関連論文リスト
- Do Multimodal Agents Really Benefit from Tool Use? A Systematic Study of Capability Gains [20.11899219087138]
画像のエージェントであるThymeとDeepEyesV2を用いて、現実世界の理解、OCR、チャート理解、数学的推論の2つの代表的思考について検討する。
ツールアクセスは、一貫した集約的改善がほとんど得られず、生成したコストを確実に削減することができず、小さなツールのみの解決セットのみを残している。
論文 参考訳(メタデータ) (2026-06-01T15:04:25Z) - LLM Agents Already Know When to Call Tools -- Even Without Reasoning [25.40369702634587]
LLMエージェントは、たとえモデルが直接答えられるとしても、ツールを無差別に呼び出す傾向がある。
ツールコールが実際に必要になった場合、既存のベンチマークは体系的に研究されない。
ツールの必要性の3つのカテゴリにまたがる18の環境のベンチマークである When2Tool を提案する。
論文 参考訳(メタデータ) (2026-05-10T01:37:40Z) - Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents [16.379755833783406]
セマンティック・トラクタの存在下では,ツール拡張推論は必ずしもネイティブなCoTよりも優れているとは限らない。
セマンティックノイズの下では、ツールの利得が「ツール使用税」を相殺するのに失敗することが多い。
本稿では,プロトコルによるエラーを緩和する軽量な推論時ゲートであるG-STEPを紹介する。
論文 参考訳(メタデータ) (2026-04-30T18:46:01Z) - ToolRLA: Multiplicative Reward Decomposition for Tool-Integrated Agents [1.8379860135249093]
ドメイン固有のツールエージェントのためのポストトレーニングパイプラインであるToolRLAを提案する。
コアコントリビューションは、乗法的正しさ分解を伴う微細な報酬関数である。
ToolRLAは3ヶ月以上、タスク完了率を47%改善している。
論文 参考訳(メタデータ) (2026-03-02T08:52:14Z) - Budget-Aware Tool-Use Enables Effective Agent Scaling [82.6942342482552]
大規模言語モデル(LLM)におけるタスク間のテスト時間計算のスケーリングによるパフォーマンス向上
本研究では,これらのエージェントを,Web検索エージェントを中心に,明示的なツールコール予算の下で効果的にスケールする方法について検討する。
私たちは、エージェントに継続的な予算意識を提供する軽量プラグインであるBudget Trackerを紹介します。
論文 参考訳(メタデータ) (2025-11-21T07:18:55Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。
具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。
第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文 参考訳(メタデータ) (2025-06-05T04:35:49Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。