論文の概要: VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use
- arxiv url: http://arxiv.org/abs/2505.19255v1
- Date: Sun, 25 May 2025 18:23:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.009295
- Title: VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use
- Title(参考訳): VTool-R1:マルチモーダルツールを用いた強化学習によるイメージの学習
- Authors: Mingyuan Wu, Jingcheng Yang, Jize Jiang, Meitang Li, Kaizhuo Yan, Hanchao Yu, Minjia Zhang, Chengxiang Zhai, Klara Nahrstedt,
- Abstract要約: VTool-R1は、視覚言語モデルを訓練し、思考のマルチモーダル連鎖を生成する最初のフレームワークである。
VTool-R1はPythonベースのビジュアル編集ツールをReinforcement Learning Finetuningプロセスに統合する。
- 参考スコア(独自算出の注目度): 33.83255323522487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning Finetuning (RFT) has significantly advanced the reasoning capabilities of large language models (LLMs) by enabling long chains of thought, self-correction, and effective tool use. While recent works attempt to extend RFT to vision-language models (VLMs), these efforts largely produce text-only reasoning conditioned on static image inputs, falling short of true multimodal reasoning in the response. In contrast, test-time methods like Visual Sketchpad incorporate visual steps but lack training mechanisms. We introduce VTool-R1, the first framework that trains VLMs to generate multimodal chains of thought by interleaving text and intermediate visual reasoning steps. VTool-R1 integrates Python-based visual editing tools into the RFT process, enabling VLMs to learn when and how to generate visual reasoning steps that benefit final reasoning. Trained with outcome-based rewards tied to task accuracy, our approach elicits strategic visual tool use for reasoning without relying on process-based supervision. Experiments on structured visual question answering over charts and tables show that VTool-R1 enhances reasoning performance by teaching VLMs to "think with images" and generate multimodal chain of thoughts with tools.
- Abstract(参考訳): 強化学習ファインタニング (Reinforcement Learning Finetuning, RFT) は、思考の長い連鎖、自己補正、効果的なツールの使用を可能にすることで、大きな言語モデル(LLM)の推論能力を大幅に向上させた。
近年の研究では、RFTを視覚言語モデル(VLM)に拡張しようとしているが、これらの取り組みは、静的画像入力に条件付けされたテキストのみの推論を主に生成し、応答における真のマルチモーダル推論を欠いている。
対照的に、Visual Sketchpadのようなテストタイムメソッドには、ビジュアルステップが組み込まれているが、トレーニングメカニズムが欠如している。
VTool-R1はVLMをトレーニングし、テキストと中間的な視覚的推論ステップをインターリーブすることで、多モーダルな思考の連鎖を生成する最初のフレームワークである。
VTool-R1はPythonベースのビジュアル編集ツールをRFTプロセスに統合し、VLMが最終的な推論に役立つ視覚的推論ステップをいつ、どのように生成するかを学ぶことができる。
タスクの正確性に結びついた結果に基づく報酬をトレーニングし、プロセスベースの監督に頼ることなく、推論に戦略的視覚ツールの使用を付与する。
VTool-R1は、VLMに「イメージで考える」ように教え、ツールで多モーダルな思考の連鎖を生成することで、推論性能を向上させることを示す。
関連論文リスト
- OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。
本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。
V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文 参考訳(メタデータ) (2025-05-13T14:35:51Z) - VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making [21.61801132083334]
VIPERはマルチモーダル命令ベースの計画のための新しいフレームワークである。
VLMベースの知覚とLLMベースの推論を統合する。
その結果、VIPERは最先端のビジュアル・インストラクション・ベース・プランナーよりも優れていた。
論文 参考訳(メタデータ) (2025-03-19T11:05:42Z) - Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training [24.989732666940153]
オープンソースのマルチモーダル大言語モデル(MLLM)は、テキスト入力や視覚入力を含む様々なタスクに優れる。
MLLMは複雑なマルチモーダルな数学的推論に苦慮し、GPT-4V(ision)やGemini-Proといった独自のモデルに遅れを取っている。
本稿では,2段階のトレーニングパイプラインVCARを提案する。
論文 参考訳(メタデータ) (2024-04-22T21:59:35Z) - CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update [69.59482029810198]
CLOVAは、推論、リフレクション、学習フェーズを含むフレームワーク内で動作するクローズドループビジュアルアシスタントである。
その結果,CLOVAは既存のツール利用手法を5%,知識タグ付けでは10%,画像編集では20%,視覚的質問応答や複数画像推論では5%に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-18T03:34:07Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。