論文の概要: From Sight to Insight: Improving Visual Reasoning Capabilities of Multimodal Models via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.00215v1
- Date: Thu, 01 Jan 2026 05:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.314728
- Title: From Sight to Insight: Improving Visual Reasoning Capabilities of Multimodal Models via Reinforcement Learning
- Title(参考訳): 視点から洞察へ:強化学習によるマルチモーダルモデルの視覚的推論能力の向上
- Authors: Omar Sharif, Eftekhar Hossain, Patrick Ng,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は、視覚情報の統合に欠ける推論を生成する。
このようなタスクにおいて視覚的知覚が重要なボトルネックであることを示し、クロード3.5では26.7%、クロード3.7では23.6%の利得を得た。
我々は,イメージ理解,思考ステップ,回答精度など,異なる推論的側面を対象とする6つの報酬関数を設計・評価する。
Qwen-2.5-VL-7Bの実験では、ベースモデルよりも5.56%改善されており、ドメイン内設定とドメイン外設定の両方で一貫して改善されている。
- 参考スコア(独自算出の注目度): 12.548754243700657
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) has emerged as a promising approach for eliciting reasoning chains before generating final answers. However, multimodal large language models (MLLMs) generate reasoning that lacks integration of visual information. This limits their ability to solve problems that demand accurate visual perception, such as visual puzzles. We show that visual perception is the key bottleneck in such tasks: converting images into textual descriptions significantly improves performance, yielding gains of 26.7% for Claude 3.5 and 23.6% for Claude 3.7. To address this, we investigate reward-driven RL as a mechanism to unlock long visual reasoning in open-source MLLMs without requiring costly supervision. We design and evaluate six reward functions targeting different reasoning aspects, including image understanding, thinking steps, and answer accuracy. Using group relative policy optimization (GRPO), our approach explicitly incentivizes longer, structured reasoning and mitigates bypassing of visual information. Experiments on Qwen-2.5-VL-7B achieve 5.56% improvements over the base model, with consistent gains across both in-domain and out-of-domain settings.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は、最終回答を生成する前に推論連鎖を抽出するための有望なアプローチとして登場した。
しかし、マルチモーダル大規模言語モデル(MLLM)は、視覚情報の統合に欠ける推論を生成する。
これにより、視覚パズルのような正確な視覚知覚を必要とする問題を解く能力が制限される。
画像からテキスト記述に変換することでパフォーマンスが大幅に向上し、Claude 3.5が26.7%、Claude 3.7が23.6%向上した。
そこで本稿では,オープンソースMLLMにおける長期視覚推論のメカニズムとして,報酬駆動型RLについて,コストのかかる監視を必要とせずに検討する。
我々は,イメージ理解,思考ステップ,解答精度など,異なる推論的側面をターゲットとした6つの報酬関数の設計と評価を行う。
グループ相対的ポリシー最適化(GRPO)を用いて,より長く構造化された推論を明示的にインセンティブ化し,視覚情報のバイパスを緩和する。
Qwen-2.5-VL-7Bの実験では、ベースモデルよりも5.56%改善され、ドメイン内設定とドメイン外設定の両方で一貫した改善がなされた。
関連論文リスト
- Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing [70.35701681177655]
自己改善は、大きな視覚言語モデルの推論能力を向上するための主流パラダイムとして現れてきた。
本研究では,探索学習による自己改善プロセスにおいて,頭部再バランスを実現するための4つの効率的な戦略を提案する。
我々の手法は視覚的推論能力を常に改善し、バニラ自己改善を平均3.86ポイント上回る。
論文 参考訳(メタデータ) (2025-10-30T13:26:58Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Latent Visual Reasoning [40.347006722601975]
視覚埋め込み空間に直接自己回帰推論を可能にする新しいパラダイムであるLatent Visual Reasoning(LVR)を紹介する。
その結果,LVRは細粒度視認と知覚を著しく改善し,MMVPでは71.67%,Qwen2.5-VLでは66.67%であった。
論文 参考訳(メタデータ) (2025-09-29T03:52:01Z) - Reinforced Visual Perception with Tools [66.79840157663237]
本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。
本手法は,複数の知覚重度ベンチマークにおいて,最先端の性能を実現する。
我々のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
論文 参考訳(メタデータ) (2025-09-01T17:57:49Z) - Revisiting Visual Understanding in Multimodal Reasoning through a Lens of Image Perturbation [38.740533834549716]
言語のみのモデルでは、生の視覚入力を消費するMLLMと同等またはそれ以上の性能が得られることを示す。
そこで我々は,アルゴリズムの修正を必要とせず,知覚の堅牢性を高めるシンプルな視覚摂動フレームワークを提案する。
本研究は,マルチモーダル数学的推論における視覚摂動の重要性を明らかにするものである。
論文 参考訳(メタデータ) (2025-06-11T13:39:46Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。