論文の概要: Thinking with Programming Vision: Towards a Unified View for Thinking with Images
- arxiv url: http://arxiv.org/abs/2512.03746v1
- Date: Wed, 03 Dec 2025 12:44:15 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:17:07.595696
- Title: Thinking with Programming Vision: Towards a Unified View for Thinking with Images
- Title(参考訳): プログラミングビジョンで考える:イメージで考える統一的な視点に向けて
- Authors: Zirun Guo, Minjie Hong, Feng Zhang, Kai Jia, Tao Jin,
- Abstract要約: 最先端のMLLMでさえ驚くほど不安定であり、単純な向きの変化や自然破壊を伴う画像の性能劣化が顕著であることを示す。
我々は,モデルが任意のイメージ操作を実行するユニバーサルインターフェースとしてコードを生成する,フレキシブルでスケーラブルなコード・アズ・ツール・フレームワークであるCodeVisionを提案する。
- 参考スコア(独自算出の注目度): 23.596757163808906
- License:
- Abstract: Multimodal large language models (MLLMs) that think with images can interactively use tools to reason about visual inputs, but current approaches often rely on a narrow set of tools with limited real-world necessity and scalability. In this work, we first reveal a critical and previously overlooked weakness: even state-of-the-art MLLMs are surprisingly brittle, showing significant performance degradation on images with simple orientation changes or natural corruptions, underscoring the need for more robust tool-based reasoning. To address this, we propose CodeVision, a flexible and scalable code-as-tool framework where the model generates code as a universal interface to invoke any image operation, moving beyond fixed tool registries. We train our model using a two-stage methodology, beginning with Supervised Fine-Tuning (SFT) on a high-quality dataset curated for complex, multi-turn tool composition and error recovery, followed by Reinforcement Learning (RL) with a novel and dense process reward function to encourage strategic and efficient tool use. To facilitate this research, we construct new SFT and RL datasets and introduce a challenging new benchmark suite designed to rigorously evaluate robustness to orientation changes and multi-tool reasoning. Experiments on Qwen2.5-VL and Qwen3-VL series show that our approach significantly improves model performance and fosters emergent capabilities such as flexible tool composition, efficient chained execution, and robust error recovery from runtime feedback. Code is available at https://github.com/ByteDance-BandAI/CodeVision.
- Abstract(参考訳): 画像で考えるマルチモーダルな大規模言語モデル(MLLM)は、視覚的な入力を推論するためにツールをインタラクティブに使用することができるが、現在のアプローチは、現実の必要とスケーラビリティに制限のある、限られたツールセットに依存していることが多い。
最先端のMLLMでさえ驚くほど不安定であり、単純な向きの変更や自然な腐敗を伴う画像のパフォーマンスが著しく低下しており、より堅牢なツールベースの推論の必要性が強調されている。
これを解決するために,モデルが任意のイメージ操作を実行するユニバーサルインターフェースとしてコードを生成する,フレキシブルでスケーラブルなCode-as-toolフレームワークであるCodeVisionを提案する。
まず、複雑な多ターンツールの構成とエラー回復のために算出された高品質なデータセットに基づいて、Supervised Fine-Tuning (SFT) から始まる2段階の方法論を用いてモデルをトレーニングし、続いて、新しい高密度プロセス報酬機能を備えた強化学習(RL)によって、戦略的かつ効率的なツール使用を促進する。
そこで本研究では,新たなSFTおよびRLデータセットの構築と,方向変化に対するロバスト性やマルチツール推論の厳密な評価を目的とした,新しいベンチマークスイートを提案する。
Qwen2.5-VLシリーズとQwen3-VLシリーズの実験により、我々のアプローチはモデルの性能を大幅に改善し、柔軟なツール構成、効率的な連鎖実行、実行時のフィードバックからの堅牢なエラー回復といった創発的な能力を向上することが示された。
コードはhttps://github.com/ByteDance-BandAI/CodeVision.comで入手できる。
関連論文リスト
- Reinforced Visual Perception with Tools [66.79840157663237]
本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。
本手法は,複数の知覚重度ベンチマークにおいて,最先端の性能を実現する。
我々のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
論文 参考訳(メタデータ) (2025-09-01T17:57:49Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use [33.83255323522487]
VTool-R1は、視覚言語モデルを訓練し、思考のマルチモーダル連鎖を生成する最初のフレームワークである。
VTool-R1はPythonベースのビジュアル編集ツールをReinforcement Learning Finetuningプロセスに統合する。
論文 参考訳(メタデータ) (2025-05-25T18:23:39Z) - OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。
本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。
V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文 参考訳(メタデータ) (2025-05-13T14:35:51Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。