Fugu-MT 論文翻訳(概要): Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback

論文の概要: Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback

arxiv url: http://arxiv.org/abs/2507.20766v4
Date: Thu, 07 Aug 2025 09:53:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-08 14:01:13.973314
Title: Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback
Title（参考訳）: 画像のみによる学習: 推論、レンダリング、視覚フィードバックによる視覚強化学習
Authors: Yang Chen, Yufan Shen, Wenxuan Huang, Sheng Zhou, Qunshu Lin, Xinyu Cai, Zhi Yu, Jiajun Bu, Botian Shi, Yu Qiao,
Abstract要約: 本稿では,MLLMが生画像のみから複雑な視覚的推論を学習できるようにするフレームワークを提案する。我々は、この相対的容易さが強化学習による最適化に理想的な報酬信号を提供することを示した。 RRVF訓練モデルは既存のMLLMを上回り、微調整ベースラインを監督するだけでなく、より優れた一般化を示す。
参考スコア（独自算出の注目度）: 33.127607245587576
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) exhibit impressive performance across various visual tasks. Subsequent investigations into enhancing their visual reasoning abilities have significantly expanded their performance envelope. However, a critical bottleneck in the advancement of MLLMs toward deep visual reasoning is their heavy reliance on curated image-text supervision. To solve this problem, we introduce a novel framework, ``Reasoning-Rendering-Visual-Feedback'' (RRVF), that enables MLLMs to learn complex visual reasoning from only raw images. This framework builds on the ``Asymmetry of Verification'' principle, i.e., verifying the rendered output against the source image is substantially easier than performing deep visual reasoning to generate a faithful, structured representation such as code. We demonstrate that this relative ease provides an ideal reward signal for optimization via Reinforcement Learning (RL), thereby reducing reliance on image-text supervision. RRVF implements a closed-loop iterative process encompassing reasoning, rendering, and visual feedback components, enabling the model to perform complex reasoning, including self-correction through multi-turn interactions. This process is optimized end-to-end using the GRPO algorithm. Extensive evaluations are conducted on image-to-code generation across two diverse domains: data charts and web interfaces. The RRVF-trained model not only outperforms existing similarly sized open-source MLLMs and supervised fine-tuning baselines but also exhibits superior generalization. Notably, the model outperforms the more advanced MLLM used to generate visual feedback during training. Code is available at https://github.com/L-O-I/RRVF.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、様々な視覚的タスクにおいて優れたパフォーマンスを示す。その後、視覚的推論能力の向上に関する調査は、パフォーマンス・エンベロープを著しく拡大した。しかし、深い視覚的推論に向けたMLLMの進歩における重要なボトルネックは、キュレートされた画像テキストの監督に大きく依存していることである。この問題を解決するために,MLLM が生画像のみから複雑な視覚的推論を学習できるようにする新しいフレームワーク ``Reasoning-Rendering-Visual-Feedback' (RRVF) を導入する。このフレームワークは ``Asymmetric of Verification'' の原理に基づいており、すなわち、ソース画像に対して出力された出力を検証することは、深い視覚的推論を実行して、コードのような忠実で構造化された表現を生成するよりも極めて容易である。この相対的容易性は、強化学習(RL)による最適化に理想的な報酬信号を提供し、画像テキストの監督への依存を減らすことを実証する。 RRVFは、推論、レンダリング、視覚フィードバックコンポーネントを含むクローズドループ反復プロセスを実装し、マルチターンインタラクションによる自己補正を含む複雑な推論を可能にする。このプロセスはGRPOアルゴリズムを用いてエンドツーエンドに最適化される。データチャートとWebインターフェースという,2つの領域にわたる画像とコードの生成について,広範囲な評価を行った。 RRVFで訓練されたモデルは、同様の大きさのオープンソースMLLMよりも優れ、微調整ベースラインを監督するだけでなく、より優れた一般化を示す。特に、このモデルは、トレーニング中に視覚的なフィードバックを生成するために使用される、より高度なMLLMよりも優れています。コードはhttps://github.com/L-O-I/RRVFで入手できる。

関連論文リスト

Multi-Step Visual Reasoning with Visual Tokens Scaling and Verification [22.871255950998016]
本稿では,MLLMが視覚コンテンツに対して検証者誘導推論を行うことを可能にする,推論時ビジュアルトークンスケーリングのための新しいフレームワークを提案する。提案手法は,様々な視覚的推論ベンチマークにおいて,既存手法よりも優れていた。これらの結果は,次世代MLLMにおける微粒でコンテキスト対応の視覚的推論を実現するための動的推論機構の実現を実証するものである。
論文参考訳（メタデータ） (2025-06-08T17:38:49Z)
Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文参考訳（メタデータ） (2025-05-26T12:05:16Z)
Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving [57.22004912994658]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文参考訳（メタデータ） (2025-05-23T08:18:00Z)
Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文参考訳（メタデータ） (2025-04-18T10:46:22Z)
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。 Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文参考訳（メタデータ） (2025-03-31T17:55:23Z)
OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。 OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [18.855378039713678]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文参考訳（メタデータ） (2025-02-18T18:59:57Z)
From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs [23.011836329934255]
Vision Dynamic Embedding-Guided Pretraining (VDEP)はMLLMのためのハイブリッド自動回帰トレーニングパラダイムである。提案手法はアーキテクチャ変更なしに標準モデルにシームレスに統合される。 13のベンチマークの実験では、VDEPはベースラインを上回り、既存のメソッドを上回っている。
論文参考訳（メタデータ） (2025-02-13T09:04:28Z)
Reconstructive Visual Instruction Tuning [64.91373889600136]
リコンストラクティブ・ビジュアル・インストラクション・チューニング(ROSS)は、視覚中心の監視信号を利用する大型マルチモーダル・モデル(LMM)のファミリーである。入力画像の潜在表現を再構成し、正確なRGB値を直接回帰するのを避ける。経験的に、ROSSは、異なるビジュアルエンコーダと言語モデルに対して、一貫して大幅に改善されている。
論文参考訳（メタデータ） (2024-10-12T15:54:29Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。