論文の概要: Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback
- arxiv url: http://arxiv.org/abs/2507.20766v2
- Date: Wed, 30 Jul 2025 11:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 11:57:45.839885
- Title: Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback
- Title(参考訳): 画像のみによる学習: 推論、レンダリング、視覚フィードバックによる視覚強化学習
- Authors: Yang Chen, Yufan Shen, Wenxuan Huang, Sheng Zhou, Qunshu Lin, Xinyu Cai, Zhi Yu, Jiajun Bu, Botian Shi, Yu Qiao,
- Abstract要約: 我々はReasoning-Rendering-Visual-Feedback'(RRVF)と呼ばれる新しいフレームワークを紹介する。
RRVFは、MLLMが生画像のみから複雑な視覚的推論を学習できるようにする。
我々は、RCVFが強化学習(RL)トレーニングによる最適化に理想的な報酬信号を提供することを示した。
- 参考スコア(独自算出の注目度): 33.127607245587576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) exhibit impressive performance across various visual tasks. Subsequent investigations into enhancing their visual reasoning abilities have significantly expanded their performance envelope. However, a critical bottleneck in the advancement of MLLMs toward deep visual reasoning is their heavy reliance on curated image-text supervision. To solve this problem, we introduce a novel framework termed ``Reasoning-Rendering-Visual-Feedback'' (RRVF), which enables MLLMs to learn complex visual reasoning from only raw images. This framework builds on the ``Asymmetry of Verification'' principle to train MLLMs, i.e., verifying the rendered output against a source image is easier than generating it. We demonstrate that this relative ease provides an ideal reward signal for optimization via Reinforcement Learning (RL) training, reducing reliance on the image-text supervision. Guided by the above principle, RRVF implements a closed-loop iterative process encompassing reasoning, rendering, and visual feedback components, enabling the model to perform self-correction through multi-turn interactions, while this pipeline can be optimized end-to-end by the GRPO algorithm. Extensive evaluations are conducted on image-to-code generation across two diverse domains: data charts and web interfaces. The RRVF-trained model not only outperforms existing open-source MLLMs and supervised fine-tuning baselines but also exhibits superior generalization to unseen datasets. Critically, the model's performance surpasses that of the more advanced MLLM used to provide the feedback signal during training. This work establishes a self-improvement paradigm that offers a viable path to robust, generalizable models without reliance on explicit supervision. Code will be available at https://github.com/L-O-I/RRVF.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、様々な視覚的タスクにおいて優れたパフォーマンスを示す。
その後、視覚的推論能力の向上に関する調査は、パフォーマンス・エンベロープを著しく拡大した。
しかし、深い視覚的推論に向けたMLLMの進歩における重要なボトルネックは、キュレートされた画像テキストの監督に大きく依存していることである。
この問題を解決するために, MLLM が生画像のみから複雑な視覚的推論を学習できるようにする新しいフレームワークである ``Reasoning-Rendering-Visual-Feedback' (RRVF) を導入する。
このフレームワークはMLLMを訓練する ``Asymmetric of Verification'' の原理に基づいている。
この相対的容易性は、強化学習(RL)トレーニングによる最適化に理想的な報酬信号を提供し、画像テキストの監督への依存を減らすことを実証する。
上記の原理により、RCVFは推論、レンダリング、視覚フィードバックを含むクローズドループ反復プロセスを実装し、モデルがマルチターンインタラクションによって自己補正を行うのに対して、このパイプラインはGRPOアルゴリズムによってエンドツーエンドに最適化できる。
データチャートとWebインターフェースという,2つの領域にわたる画像とコードの生成について,広範囲な評価を行った。
RRVF訓練モデルは、既存のオープンソースMLLMよりも優れ、微調整ベースラインを監督するだけでなく、目に見えないデータセットよりも優れた一般化を示す。
重要な点として、モデルの性能は、トレーニング中にフィードバック信号を提供するために使用されるより高度なMLLMを上回る。
この研究は、明示的な監督に頼ることなく、堅牢で一般化可能なモデルへの実行可能なパスを提供する自己改善パラダイムを確立する。
コードはhttps://github.com/L-O-I/RRVF.comで入手できる。
関連論文リスト
- Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [18.855378039713678]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs [23.011836329934255]
Vision Dynamic Embedding-Guided Pretraining (VDEP)はMLLMのためのハイブリッド自動回帰トレーニングパラダイムである。
提案手法はアーキテクチャ変更なしに標準モデルにシームレスに統合される。
13のベンチマークの実験では、VDEPはベースラインを上回り、既存のメソッドを上回っている。
論文 参考訳(メタデータ) (2025-02-13T09:04:28Z) - Reconstructive Visual Instruction Tuning [64.91373889600136]
リコンストラクティブ・ビジュアル・インストラクション・チューニング(ROSS)は、視覚中心の監視信号を利用する大型マルチモーダル・モデル(LMM)のファミリーである。
入力画像の潜在表現を再構成し、正確なRGB値を直接回帰するのを避ける。
経験的に、ROSSは、異なるビジュアルエンコーダと言語モデルに対して、一貫して大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-12T15:54:29Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。