論文の概要: CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization
- arxiv url: http://arxiv.org/abs/2511.19661v1
- Date: Mon, 24 Nov 2025 19:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.140558
- Title: CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization
- Title(参考訳): CodeV:ツール・アウェア・ポリシー最適化による忠実なビジュアル推論のための画像付きコード
- Authors: Xinhai Hou, Shaoyuan Xu, Manan Biyani, Mayan Li, Jia Liu, Todd C. Hollon, Bryan Wang,
- Abstract要約: 最終回答の精度は、しばしば不誠実な視覚的推論を隠蔽する。
ツール・アウェア・ポリシー・オプティマイゼーションで訓練されたコードベースのビジュアルエージェントであるCodeVを紹介する。
- 参考スコア(独自算出の注目度): 11.951768962241713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic vision-language models are increasingly trained to "think with images" by calling image operations. However, we show that high final-answer accuracy often hides unfaithful visual reasoning: models may invoke tools on irrelevant regions or ignore tool outputs entirely, yet still guess the correct answer. In this work, we first propose a faithfulness evaluation protocol that measures whether intermediate visual tool outputs (e.g., crops) actually contain the queried evidence. This reveals that recent visual agents achieve high final-answer accuracy but exhibit low rates of faithful tool-use on visual search benchmarks. We then introduce CodeV, a code-based visual agent trained with Tool-Aware Policy Optimization (TAPO). TAPO is a process-level RL framework that augments GRPO with dense rewards defined directly on visual tool inputs and outputs, rather than on chain-of-thought tokens, making supervision easier to verify and less susceptible to reward hacking. CodeV represents visual tools as executable Python code, and TAPO assigns step-wise rewards based solely on the question and tool output, encouraging both necessary and evidence-consistent tool use. In a two-stage SFT+RL pipeline, CodeV achieves competitive or superior accuracy while substantially increasing faithful tool-use rates on related visual search benchmarks. Beyond visual search, CodeV attains strong performance on a range of multimodal reasoning and math benchmarks, suggesting that explicitly supervising intermediate tool behavior is crucial for building trustworthy, agentic visual reasoning systems.
- Abstract(参考訳): エージェント視覚言語モデルは、イメージ操作を呼び出すことで「イメージについて考える」ように、ますます訓練されている。
モデルは無関係な領域でツールを呼び出すか、ツールのアウトプットを完全に無視するが、正しい答えを推測する。
本研究ではまず,中間的視覚ツール出力(例えば作物)が実際にクエリーされた証拠を含むかどうかを測定する忠実度評価プロトコルを提案する。
この結果から,近年のビジュアルエージェントは最終回答精度が高いが,ビジュアル検索ベンチマークでは忠実ツールの使用率が低いことが明らかとなった。
次に、ツール・アウェア・ポリシー・オプティマイゼーション(TAPO)で訓練されたコードベースのビジュアルエージェントであるCodeVを紹介する。
TAPOはプロセスレベルのRLフレームワークで、チェーンオブシンクレットトークンではなく、ビジュアルツールの入力やアウトプットに直接定義された深い報酬でGRPOを強化する。
CodeVはビジュアルツールを実行可能なPythonコードとして表現し、TAPOは質問とツール出力のみに基づいてステップワイズ報酬を割り当て、必要かつエビデンスに一貫性のあるツールの使用を奨励する。
2段階のSFT+RLパイプラインでは、CodeVは競合や優れた精度を達成すると同時に、関連するビジュアル検索ベンチマークに対する忠実なツール使用率を大幅に向上させる。
ビジュアル検索以外にも、CodeVは様々なマルチモーダル推論と数学ベンチマークで強力なパフォーマンスを達成しており、信頼できるエージェント的なビジュアル推論システムを構築する上では、中間ツールの振る舞いを明示的に監視することが重要であることを示唆している。
関連論文リスト
- RECODE: Reasoning Through Code Generation for Visual Question Answering [68.86938437188964]
我々は、検証可能な視覚的推論のための新しいモダリティとして、視覚を実行可能コードにリバースエンジニアリングするプロセスであるデレンダリングを活用することを提案する。
我々の研究は、実行可能コードにおける視覚的認識の基盤が、より正確で検証可能なマルチモーダル推論への新たな道を提供することを示した。
論文 参考訳(メタデータ) (2025-10-15T17:05:37Z) - Reinforced Visual Perception with Tools [66.79840157663237]
本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。
本手法は,複数の知覚重度ベンチマークにおいて,最先端の性能を実現する。
我々のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
論文 参考訳(メタデータ) (2025-09-01T17:57:49Z) - VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection [47.259066449806866]
VisTAは新しい強化学習フレームワークで、視覚エージェントが経験的パフォーマンスに基づいた多様なライブラリのツールを動的に探索し、選択し、組み合わせることを可能にする。
トレーニング不要のベースラインよりも,VisTAが大幅なパフォーマンス向上を実現していることを示す。
これらの結果は、VisTAが一般化を強化し、多様なツールを適応的に活用し、柔軟な経験駆動型視覚推論システムを実現する能力を強調している。
論文 参考訳(メタデータ) (2025-05-26T17:59:17Z) - VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use [33.83255323522487]
VTool-R1は、視覚言語モデルを訓練し、思考のマルチモーダル連鎖を生成する最初のフレームワークである。
VTool-R1はPythonベースのビジュアル編集ツールをReinforcement Learning Finetuningプロセスに統合する。
論文 参考訳(メタデータ) (2025-05-25T18:23:39Z) - Visual Agentic Reinforcement Fine-Tuning [73.37007472426299]
この研究は、大規模視覚言語モデル(LVLM)における柔軟な適応推論能力を実現するための視覚エージェント強化細調整(Visual-ARFT)の有効性を強調した。
Visual-ARFTによって、オープンソースのLVLMは、リアルタイム情報更新のためのWebサイトをブラウズし、コードを書き、トリミング、回転、その他の画像処理技術を通じて入力画像を操作および解析することが可能になる。
実験の結果,Visual-ARFT は MAT-Coding で +18.6% F1 / +13.0% EM ,MAT-Search で +10.3% F1 / +8.7% EM で,ベースラインを+18.6% F1 / +13.0% EM で上回ることがわかった。
論文 参考訳(メタデータ) (2025-05-20T11:59:25Z) - OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。
本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。
V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文 参考訳(メタデータ) (2025-05-13T14:35:51Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。