論文の概要: AdaTooler-V: Adaptive Tool-Use for Images and Videos
- arxiv url: http://arxiv.org/abs/2512.16918v1
- Date: Thu, 18 Dec 2025 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.257242
- Title: AdaTooler-V: Adaptive Tool-Use for Images and Videos
- Title(参考訳): AdaTooler-V:画像とビデオのアダプティブツール
- Authors: Chaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue,
- Abstract要約: AdaTooler-Vは、視覚的な問題が本当にツールを必要とするかどうかを判断し、適応的なツール使用を実行するMLLMである。
AdaTooler-V-7B は高解像度のベンチマーク V* で89.8%の精度を達成し、商用のプロプライエタリモデル GPT-4o と Gemini 1.5 Pro を上回った。
- 参考スコア(独自算出の注目度): 36.66944857910871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances have shown that multimodal large language models (MLLMs) benefit from multimodal interleaved chain-of-thought (CoT) with vision tool interactions. However, existing open-source models often exhibit blind tool-use reasoning patterns, invoking vision tools even when they are unnecessary, which significantly increases inference overhead and degrades model performance. To this end, we propose AdaTooler-V, an MLLM that performs adaptive tool-use by determining whether a visual problem truly requires tools. First, we introduce AT-GRPO, a reinforcement learning algorithm that adaptively adjusts reward scales based on the Tool Benefit Score of each sample, encouraging the model to invoke tools only when they provide genuine improvements. Moreover, we construct two datasets to support training: AdaTooler-V-CoT-100k for SFT cold start and AdaTooler-V-300k for RL with verifiable rewards across single-image, multi-image, and video data. Experiments across twelve benchmarks demonstrate the strong reasoning capability of AdaTooler-V, outperforming existing methods in diverse visual reasoning tasks. Notably, AdaTooler-V-7B achieves an accuracy of 89.8\% on the high-resolution benchmark V*, surpassing the commercial proprietary model GPT-4o and Gemini 1.5 Pro. All code, models, and data are released.
- Abstract(参考訳): 近年,マルチモーダル・大規模言語モデル (MLLM) は視覚ツールの相互作用によるマルチモーダル・インターリーブド・チェーン・オブ・シント (CoT) の恩恵を受けていることが示されている。
しかし、既存のオープンソースモデルは、しばしば盲目的のツール使用推論パターンを示し、不要な場合でも視覚ツールを呼び起こし、推論オーバーヘッドを大幅に増加させ、モデルパフォーマンスを低下させる。
そこで本稿では,視覚的問題が本当にツールを必要とするかどうかを判断し,適応的なツール使用を行うMLLMであるAdaTooler-Vを提案する。
まず,各サンプルのツールベネフィットスコアに基づいて報酬尺度を適応的に調整する強化学習アルゴリズムAT-GRPOを紹介する。
さらに,SFTコールドスタート用AdaTooler-V-CoT-100kとRL用AdaTooler-V-300kの2つのデータセットを構築した。
12ベンチマークの実験では、AdaTooler-Vの強力な推論能力が示され、様々な視覚的推論タスクにおける既存の手法よりも優れていた。
特に、AdaTooler-V-7B は高解像度のベンチマーク V* で89.8 %の精度を達成し、商用のプロプライエタリモデル GPT-4o と Gemini 1.5 Pro を上回った。
すべてのコード、モデル、データがリリースされます。
関連論文リスト
- AutoTool: Dynamic Tool Selection and Integration for Agentic Reasoning [79.65732142949014]
エージェント強化学習は、長いチェーン・オブ・シークレット・トラジェクトリを通して推論するために進歩した大規模言語モデル(LLM)である。
既存のアプローチでは、LLMエージェントの適応性を新しいツールセットや進化するツールセットに制限する、固定されたツールの在庫を前提としている。
本稿では, LLMエージェントに動的ツール選択機能を持たせるためのフレームワークであるAutoToolについて述べる。
論文 参考訳(メタデータ) (2025-12-15T12:38:04Z) - SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL [33.692408134748696]
視覚言語モデル(VLM)は、質的な視覚的理解が強いが、計量的に正確な空間的推論に苦慮している。
本稿では,VLMが複数のツールを協調する2段階の学習フレームワークであるDouble Interactive Reinforcement Learning(DIRL)を紹介する。
我々のモデルであるSpaceToolsは、ツール強化された空間推論能力を持ち、空間理解ベンチマーク上で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-12-03T18:50:04Z) - Reinforced Visual Perception with Tools [66.79840157663237]
本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。
本手法は,複数の知覚重度ベンチマークにおいて,最先端の性能を実現する。
我々のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
論文 参考訳(メタデータ) (2025-09-01T17:57:49Z) - ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools [9.788417605537965]
本稿では,23Kインスタンスからなる大規模マルチモーダルデータセットであるToolVQAを紹介する。
ToolVQAは現実世界の視覚的コンテキストと暗黙の多段階推論タスクを備え、実際のユーザインタラクションとの整合性が向上する。
このデータセットを構築するために,Depth-First Search(DFS)と動的インコンテキストのサンプルマッチング機構を組み合わせた新しいデータ生成パイプラインであるToolEngineを提案する。
論文 参考訳(メタデータ) (2025-08-05T10:06:16Z) - Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。
具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。
第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文 参考訳(メタデータ) (2025-06-05T04:35:49Z) - OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。
本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。
V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文 参考訳(メタデータ) (2025-05-13T14:35:51Z) - Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models [47.145844910856134]
ツール学習は、多種多様なツールで大きな言語モデルを強化し、実践的なタスクを解決するエージェントとして機能することを目的としている。
ツール利用LLMのコンテキスト長が限られているため、大きなツールセットから有用なツールを選択するために情報検索(IR)モデルを採用することが重要な初期ステップである。
ほとんどのツール使用ベンチマークは、実際のシナリオとは程遠いタスクごとに、小さなツールセットを手動で注釈付けすることで、このステップを単純化している。
多様な検索タスク7.6kと43kツールのコーパスからなる異種ツール検索ベンチマークであるToolRetを提案する。
論文 参考訳(メタデータ) (2025-03-03T17:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。