論文の概要: VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining
- arxiv url: http://arxiv.org/abs/2603.15030v1
- Date: Mon, 16 Mar 2026 09:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.985764
- Title: VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining
- Title(参考訳): VTC-Bench: 合成ビジュアルツールチェインによるエージェントマルチモーダルモデルの評価
- Authors: Xuanyu Zhu, Yuhao Dong, Rundong Wang, Yang Shi, Zhipeng Wu, Yinlun Peng, YiFan Zhang, Yihang Lou, Yuanxing Zhang, Ziwei Liu, Yan Bai, Yuan Zhou,
- Abstract要約: VisualToolChain-Bench (VTC-Bench)を導入し,マルチモーダル大言語モデル(MLLM)におけるツール使用の習熟度を評価する。
リアルなコンピュータビジョンパイプラインに合わせるために、我々のフレームワークは32種類のOpenCVベースの視覚操作を備えている。
正確な評価のために、9カテゴリの認知階層にまたがる680のキュレートされた問題を提示する。
- 参考スコア(独自算出の注目度): 49.78591189918702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements extend Multimodal Large Language Models (MLLMs) beyond standard visual question answering to utilizing external tools for advanced visual tasks. Despite this progress, precisely executing and effectively composing diverse tools for complex tasks remain persistent bottleneck. Constrained by sparse tool-sets and simple tool-use trajectories, existing benchmarks fail to capture complex and diverse tool interactions, falling short in evaluating model performance under practical, real-world conditions. To bridge this gap, we introduce VisualToolChain-Bench~(VTC-Bench), a comprehensive benchmark designed to evaluate tool-use proficiency in MLLMs. To align with realistic computer vision pipelines, our framework features 32 diverse OpenCV-based visual operations. This rich tool-set enables extensive combinations, allowing VTC-Bench to rigorously assess multi-tool composition and long-horizon, multi-step plan execution. For precise evaluation, we provide 680 curated problems structured across a nine-category cognitive hierarchy, each with ground-truth execution trajectories. Extensive experiments on 19 leading MLLMs reveal critical limitations in current models' visual agentic capabilities. Specifically, models struggle to adapt to diverse tool-sets and generalize to unseen operations, with the leading model Gemini-3.0-Pro only achieving 51\% on our benchmark. Furthermore, multi-tool composition remains a persistent challenge. When facing complex tasks, models struggle to formulate efficient execution plans, relying heavily on a narrow, suboptimal subset of familiar functions rather than selecting the optimal tools. By identifying these fundamental challenges, VTC-Bench establishes a rigorous baseline to guide the development of more generalized visual agentic models.
- Abstract(参考訳): 近年,マルチモーダル大規模言語モデル (MLLM) は,高度な視覚タスクに外部ツールを活用することで,標準的な視覚的質問応答を超えて拡張されている。
この進歩にもかかわらず、複雑なタスクのための多様なツールを正確に実行し、効果的に構成することは、永続的なボトルネックのままである。
スパースツールセットとシンプルなツール使用トラジェクトリによって制限された既存のベンチマークは、複雑で多様なツールインタラクションをキャプチャできず、実用的な実世界の条件下でのモデルパフォーマンスの評価に不足している。
このギャップを埋めるため、MLLMのツール使用能力を評価するために設計された総合ベンチマークであるVisualToolChain-Bench~(VTC-Bench)を紹介する。
リアルなコンピュータビジョンパイプラインに合わせるために、我々のフレームワークは32種類のOpenCVベースの視覚操作を備えている。
このリッチなツールセットは広範な組み合わせを可能にし、VTC-Benchはマルチツール構成と長期のマルチステッププラン実行を厳格に評価することができる。
正確な評価のために,9カテゴリの認知階層にまたがって構成された680個のキュレートされた問題に対して,それぞれが基幹的実行軌跡を持つ。
19個のMLLMの大規模な実験により、現在のモデルにおける視覚的エージェント能力の限界が明らかとなった。
特に、モデルは多様なツールセットに適応し、目に見えない操作に一般化するのに苦労し、主要なモデルであるGemini-3.0-Proは、ベンチマークで51倍しか達成していません。
さらに、マルチツール構成は永続的な課題である。
複雑なタスクに直面している場合、モデルは最適なツールを選択するのではなく、慣れ親しんだ関数の狭い最適部分集合に大きく依存して効率的な実行計画を定式化するのに苦労する。
これらの基本的な課題を特定することにより、VTC-Benchはより一般化された視覚エージェントモデルの開発を導くための厳密なベースラインを確立する。
関連論文リスト
- AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios [32.58358574768901]
実世界のマルチモーダルエージェントは、視覚的証拠に根ざしたマルチステップを解決する。
既存のベンチマークは、主にシングルターンの視覚的推論または特定のツールスキルを評価する。
本稿では,汎用マルチモーダルエージェントのベンチマークであるAgentVistaを紹介する。
論文 参考訳(メタデータ) (2026-02-26T16:30:46Z) - AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - Thinking with Programming Vision: Towards a Unified View for Thinking with Images [23.596757163808906]
最先端のMLLMでさえ驚くほど不安定であり、単純な向きの変化や自然破壊を伴う画像の性能劣化が顕著であることを示す。
我々は,モデルが任意のイメージ操作を実行するユニバーサルインターフェースとしてコードを生成する,フレキシブルでスケーラブルなコード・アズ・ツール・フレームワークであるCodeVisionを提案する。
論文 参考訳(メタデータ) (2025-12-03T12:44:15Z) - Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs [76.47326680870783]
VISTA-Gymは視覚言語モデル(VLM)におけるツール統合視覚推論能力のインセンティブ化のためのトレーニング環境である。
VISTA-Gymはビジュアルツールの標準化されたインタフェースで様々な実世界のマルチモーダル推論タスクを統合する。
VISTA-R1-8Bは、11の公開推論集約VQAベンチマークにおいて、同様のサイズで最先端のベースラインを9.51%-18.72%上回ることを示す。
論文 参考訳(メタデータ) (2025-11-24T22:58:26Z) - ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use [64.20714385692634]
ToolScopeは、グローバルな計画とローカルなマルチモーダル認識を統合するために設計されたエージェントフレームワークである。
我々は、VQA 2.0、ScienceQA、MAT-Search、MathVistaを含む4つのVQAベンチマークでToolScopeを評価する。
論文 参考訳(メタデータ) (2025-10-31T10:51:27Z) - ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools [9.788417605537965]
本稿では,23Kインスタンスからなる大規模マルチモーダルデータセットであるToolVQAを紹介する。
ToolVQAは現実世界の視覚的コンテキストと暗黙の多段階推論タスクを備え、実際のユーザインタラクションとの整合性が向上する。
このデータセットを構築するために,Depth-First Search(DFS)と動的インコンテキストのサンプルマッチング機構を組み合わせた新しいデータ生成パイプラインであるToolEngineを提案する。
論文 参考訳(メタデータ) (2025-08-05T10:06:16Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。