論文の概要: Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs
- arxiv url: http://arxiv.org/abs/2511.19773v1
- Date: Mon, 24 Nov 2025 22:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.201177
- Title: Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs
- Title(参考訳): VLMにおける工具強化推論のためのエージェント強化学習のスケーリング
- Authors: Meng Lu, Ran Xu, Yi Fang, Wenxuan Zhang, Yue Yu, Gaurav Srivastava, Yuchen Zhuang, Mohamed Elhoseiny, Charles Fleming, Carl Yang, Zhengzhong Tu, Yang Xie, Guanghua Xiao, Hanrui Wang, Di Jin, Wenqi Shi, Xuan Wang,
- Abstract要約: VISTA-Gymは視覚言語モデル(VLM)におけるツール統合視覚推論能力のインセンティブ化のためのトレーニング環境である。
VISTA-Gymはビジュアルツールの標準化されたインタフェースで様々な実世界のマルチモーダル推論タスクを統合する。
VISTA-R1-8Bは、11の公開推論集約VQAベンチマークにおいて、同様のサイズで最先端のベースラインを9.51%-18.72%上回ることを示す。
- 参考スコア(独自算出の注目度): 76.47326680870783
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While recent vision-language models (VLMs) demonstrate strong image understanding, their ability to "think with images", i.e., to reason through multi-step visual interactions, remains limited. We introduce VISTA-Gym, a scalable training environment for incentivizing tool-integrated visual reasoning capabilities in VLMs. VISTA-Gym unifies diverse real-world multimodal reasoning tasks (7 tasks from 13 datasets in total) with a standardized interface for visual tools (e.g., grounding, parsing), executable interaction loops, verifiable feedback signals, and efficient trajectory logging, enabling visual agentic reinforcement learning at scale. While recent VLMs exhibit strong text-only reasoning, both proprietary and open-source models still struggle with tool selection, invocation, and coordination. With VISTA-Gym, we train VISTA-R1 to interleave tool-use with agentic reasoning via multi-turn trajectory sampling and end-to-end reinforcement learning. Extensive experiments across 11 public reasoning-intensive VQA benchmarks show that VISTA-R1-8B outperforms state-of-the-art baselines with similar sizes by 9.51%-18.72%, demonstrating VISTA-Gym as an effective training ground to unlock the tool-integrated reasoning capabilities for VLMs.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)は強いイメージ理解を示しているが、その能力は「イメージを考える」能力、すなわち多段階の視覚的相互作用を通じて推論する能力に限られている。
ツール統合型視覚推論機能をVLMにインセンティブを与えるためのスケーラブルなトレーニング環境であるVISTA-Gymを紹介する。
VISTA-Gymは、ビジュアルツール(例えば、グラウンド、パーシング)、実行可能インタラクションループ、検証可能なフィードバック信号、効率的なトラジェクトリロギングのための標準化されたインターフェースで、さまざまな実世界のマルチモーダル推論タスク(合計13のデータセットから7タスク)を統合する。
最近のVLMには強いテキストのみの推論があるが、プロプライエタリモデルとオープンソースモデルの両方がツールの選択、呼び出し、調整に苦戦している。
VISTA-Gymを用いてVISTA-R1を訓練し,多ターン軌道サンプリングとエンドツーエンド強化学習によるエージェント推論によるツール使用のインターリーブを行う。
VISTA-R1-8Bは、VLMのツール統合推論能力を解き放つ効果的なトレーニング場としてVISTA-Gymを実証し、11の公開推論集約型VQAベンチマークによる大規模な実験により、同じ大きさの最先端のベースラインを9.51%-18.72%上回った。
関連論文リスト
- MEDVISTAGYM: A Scalable Training Environment for Thinking with Medical Images via Tool-Integrated Reinforcement Learning [25.75780053067891]
視覚言語モデル(VLM)は、一般的な画像理解において強い性能を発揮するが、医用画像について考えるのに苦労する。
我々はMedVistaGymを紹介した。MedVistaGymはスケーラブルでインタラクティブなトレーニング環境で、医用画像解析のためのツール統合視覚推論のインセンティブを与える。
論文 参考訳(メタデータ) (2026-01-12T00:11:10Z) - Training Multi-Image Vision Agents via End2End Reinforcement Learning [51.81337984526068]
我々は、エンドツーエンドの強化学習によって訓練されたオープンソースの視覚エージェントであるIMAgentを提案する。
マルチエージェントシステムを利用することで、困難かつ視覚的にリッチなマルチイメージQAペアを生成する。
我々は、視覚的反射と確認のための2つの特別なツールを開発し、モデルが積極的に画像コンテンツに注意を向けることを可能にする。
論文 参考訳(メタデータ) (2025-12-05T10:02:38Z) - SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL [33.692408134748696]
視覚言語モデル(VLM)は、質的な視覚的理解が強いが、計量的に正確な空間的推論に苦慮している。
本稿では,VLMが複数のツールを協調する2段階の学習フレームワークであるDouble Interactive Reinforcement Learning(DIRL)を紹介する。
我々のモデルであるSpaceToolsは、ツール強化された空間推論能力を持ち、空間理解ベンチマーク上で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-12-03T18:50:04Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Reinforced Visual Perception with Tools [66.79840157663237]
本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。
本手法は,複数の知覚重度ベンチマークにおいて,最先端の性能を実現する。
我々のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
論文 参考訳(メタデータ) (2025-09-01T17:57:49Z) - VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use [33.83255323522487]
VTool-R1は、視覚言語モデルを訓練し、思考のマルチモーダル連鎖を生成する最初のフレームワークである。
VTool-R1はPythonベースのビジュアル編集ツールをReinforcement Learning Finetuningプロセスに統合する。
論文 参考訳(メタデータ) (2025-05-25T18:23:39Z) - OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。
本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。
V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文 参考訳(メタデータ) (2025-05-13T14:35:51Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。