論文の概要: Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs
- arxiv url: http://arxiv.org/abs/2511.19773v1
- Date: Mon, 24 Nov 2025 22:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.201177
- Title: Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs
- Title(参考訳): VLMにおける工具強化推論のためのエージェント強化学習のスケーリング
- Authors: Meng Lu, Ran Xu, Yi Fang, Wenxuan Zhang, Yue Yu, Gaurav Srivastava, Yuchen Zhuang, Mohamed Elhoseiny, Charles Fleming, Carl Yang, Zhengzhong Tu, Yang Xie, Guanghua Xiao, Hanrui Wang, Di Jin, Wenqi Shi, Xuan Wang,
- Abstract要約: VISTA-Gymは視覚言語モデル(VLM)におけるツール統合視覚推論能力のインセンティブ化のためのトレーニング環境である。
VISTA-Gymはビジュアルツールの標準化されたインタフェースで様々な実世界のマルチモーダル推論タスクを統合する。
VISTA-R1-8Bは、11の公開推論集約VQAベンチマークにおいて、同様のサイズで最先端のベースラインを9.51%-18.72%上回ることを示す。
- 参考スコア(独自算出の注目度): 76.47326680870783
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While recent vision-language models (VLMs) demonstrate strong image understanding, their ability to "think with images", i.e., to reason through multi-step visual interactions, remains limited. We introduce VISTA-Gym, a scalable training environment for incentivizing tool-integrated visual reasoning capabilities in VLMs. VISTA-Gym unifies diverse real-world multimodal reasoning tasks (7 tasks from 13 datasets in total) with a standardized interface for visual tools (e.g., grounding, parsing), executable interaction loops, verifiable feedback signals, and efficient trajectory logging, enabling visual agentic reinforcement learning at scale. While recent VLMs exhibit strong text-only reasoning, both proprietary and open-source models still struggle with tool selection, invocation, and coordination. With VISTA-Gym, we train VISTA-R1 to interleave tool-use with agentic reasoning via multi-turn trajectory sampling and end-to-end reinforcement learning. Extensive experiments across 11 public reasoning-intensive VQA benchmarks show that VISTA-R1-8B outperforms state-of-the-art baselines with similar sizes by 9.51%-18.72%, demonstrating VISTA-Gym as an effective training ground to unlock the tool-integrated reasoning capabilities for VLMs.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)は強いイメージ理解を示しているが、その能力は「イメージを考える」能力、すなわち多段階の視覚的相互作用を通じて推論する能力に限られている。
ツール統合型視覚推論機能をVLMにインセンティブを与えるためのスケーラブルなトレーニング環境であるVISTA-Gymを紹介する。
VISTA-Gymは、ビジュアルツール(例えば、グラウンド、パーシング)、実行可能インタラクションループ、検証可能なフィードバック信号、効率的なトラジェクトリロギングのための標準化されたインターフェースで、さまざまな実世界のマルチモーダル推論タスク(合計13のデータセットから7タスク)を統合する。
最近のVLMには強いテキストのみの推論があるが、プロプライエタリモデルとオープンソースモデルの両方がツールの選択、呼び出し、調整に苦戦している。
VISTA-Gymを用いてVISTA-R1を訓練し,多ターン軌道サンプリングとエンドツーエンド強化学習によるエージェント推論によるツール使用のインターリーブを行う。
VISTA-R1-8Bは、VLMのツール統合推論能力を解き放つ効果的なトレーニング場としてVISTA-Gymを実証し、11の公開推論集約型VQAベンチマークによる大規模な実験により、同じ大きさの最先端のベースラインを9.51%-18.72%上回った。
関連論文リスト
- Reinforced Visual Perception with Tools [66.79840157663237]
本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。
本手法は,複数の知覚重度ベンチマークにおいて,最先端の性能を実現する。
我々のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
論文 参考訳(メタデータ) (2025-09-01T17:57:49Z) - VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use [33.83255323522487]
VTool-R1は、視覚言語モデルを訓練し、思考のマルチモーダル連鎖を生成する最初のフレームワークである。
VTool-R1はPythonベースのビジュアル編集ツールをReinforcement Learning Finetuningプロセスに統合する。
論文 参考訳(メタデータ) (2025-05-25T18:23:39Z) - OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。
本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。
V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文 参考訳(メタデータ) (2025-05-13T14:35:51Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。