論文の概要: Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2602.08241v1
- Date: Mon, 09 Feb 2026 03:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.053936
- Title: Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs
- Title(参考訳): MLLMは本当にそれを見ている:マルチモーダルLLMにおける視覚的注意の強化
- Authors: Siqu Ou, Tianrui Wan, Zhiyuan Zhao, Junyu Gao, Xuelong Li,
- Abstract要約: CoT(Chain-of- Thought)推論は、複雑な推論タスクにおいて、MLLM(Multimodal large language model)を大幅に改善した。
既存のアプローチは、主に長いテキスト推論軌道に依存し、安定した視覚的注意ポリシーを学ぶための限られたメカニズムを提供する。
地域レベルの視覚的注意に基づく報酬を導入する強化学習フレームワークを用いて訓練された視覚的推論モデルであるSAYOを提案する。
- 参考スコア(独自算出の注目度): 55.61018839017648
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While chain-of-thought (CoT) reasoning has substantially improved multimodal large language models (MLLMs) on complex reasoning tasks, existing approaches largely rely on long textual reasoning trajectories and provide limited mechanisms for learning stable visual attention policies. Our analysis shows that current MLLMs exhibit weak visual focus: early-stage visual misalignment is rarely corrected during subsequent reasoning, leading to error propagation and failed inferences. We argue that this limitation stems from inadequate credit assignment for visual attention during training. To address this issue, we propose SAYO, a visual reasoning model trained with a reinforcement learning (RL) framework that introduces a region-level visual attention-based reward. This reward explicitly aligns optimization signals with visually grounded reasoning steps, enabling the model to learn more reliable attention behaviors. Extensive experiments across multiple multimodal benchmarks demonstrate that SAYO consistently improves performance on diverse reasoning and perception tasks.
- Abstract(参考訳): チェーン・オブ・シークレット(CoT)推論は複雑な推論タスクにおいてマルチモーダル・大規模言語モデル(MLLM)を大幅に改善しているが、既存のアプローチは長いテキスト推論軌道に依存しており、安定した視覚的注意ポリシーを学習するための限られたメカニズムを提供している。
我々の分析では、現在のMLLMは視覚的焦点が弱いことが示されており、早期の視覚的不適応はその後の推論においてほとんど修正されず、誤りの伝播や推論の失敗につながっている。
この制限は、トレーニング中の視覚的注意に対する信用割当が不十分であることに起因している、と我々は主張する。
この問題に対処するために,地域レベルの視覚的注意に基づく報酬を導入する強化学習(RL)フレームワークで訓練された視覚的推論モデルであるSAYOを提案する。
この報酬は、最適化信号と視覚的に根拠付けられた推論ステップを明示的に整合させ、モデルがより信頼性の高い注意行動を学ぶことを可能にする。
複数のマルチモーダルベンチマークに対する大規模な実験により、SAYOは多様な推論および知覚タスクのパフォーマンスを一貫して改善することを示した。
関連論文リスト
- Vision-aligned Latent Reasoning for Multi-modal Large Language Model [82.26044667101011]
VaLR(Vision-aligned Latent Reasoning)は、思考の連鎖の推論ステップの前に動的に視覚対応の潜在トークンを生成するフレームワークである。
VaLRは、MLLMの中間埋め込みを視覚エンコーダのものと整合させることにより、推論中の視覚的知識の保存を訓練する。
論文 参考訳(メタデータ) (2026-02-04T12:04:02Z) - Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - Look-Back: Implicit Visual Re-focusing in MLLM Reasoning [15.478700750705643]
マルチモーダル大言語モデル (MLLM) は多モーダル推論において顕著な進歩を遂げている。
現在の手法では、推論プロセスのガイドとして視覚情報を明示的に注入することで、この問題に対処するのが一般的である。
MLLMを振り返って視覚情報を見るための暗黙のアプローチであるLook-Backを導入する。
論文 参考訳(メタデータ) (2025-07-02T14:59:35Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [59.92786855289658]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。
ProReasonは、分離されたビジョン推論機能とマルチランプロアクティブな知覚を備えている。
実験の結果, ProReasonは様々なベンチマークにおいて, 既存のマルチステップ推論フレームワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-18T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。