論文の概要: Faithful-MR1: Faithful Multimodal Reasoning via Anchoring and Reinforcing Visual Attention
- arxiv url: http://arxiv.org/abs/2605.22072v1
- Date: Thu, 21 May 2026 07:10:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.128681
- Title: Faithful-MR1: Faithful Multimodal Reasoning via Anchoring and Reinforcing Visual Attention
- Title(参考訳): Faithful-MR1: AnchoringおよびReinforcecing Visual AttentionによるFithful Multimodal Reasoning
- Authors: Changyuan Tian, Zhicong Lu, Huaxing Liu, Xiang Wang, Shuai Li, Yu Chen, Wenqian Lv, Zichuan Lin, Juncheng Diao, Deheng Ye,
- Abstract要約: 検証可能な報奨付き強化学習(RLVR)は,大規模言語モデルにおける複雑な推論を促進するための有望なパラダイムとして登場した。
忠実なマルチモーダル推論の両面に対処するために,視覚的注意を固定し,強化するトレーニングフレームワークであるFithful-MR1を提案する。
- 参考スコア(独自算出の注目度): 41.546578522790114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has emerged as a promising paradigm for advancing complex reasoning in large language models, and recent work extends RLVR to multimodal large language models (MLLMs). This transfer, however, surfaces a faithfulness challenge: faithful perception of task-relevant visual evidence and faithful use of that evidence during reasoning, leading to unsatisfactory gains on multimodal benchmarks. Specifically, existing perception supervision often operates on textual descriptions rather than natively on image regions, and faithful use is largely overlooked, exposing the perception-reasoning disconnect where correctly perceived evidence is dropped or contradicted during reasoning. To close these gaps, we propose Faithful-MR1, a training framework that anchors and reinforces visual attention to address both halves of faithful multimodal reasoning. The Anchoring stage turns perception into an explicit pre-reasoning subtask, supervising a dedicated <Focus> token's attention directly against image regions rather than through textual descriptions. The Reinforcing stage exposes faithful use through counterfactual image intervention, rewarding answer-correct trajectories that concentrate visual attention where vision causally matters. Extensive experiments demonstrate that Faithful-MR1 outperforms recent multimodal reasoning baselines on both Qwen2.5-VL-Instruct 3B and 7B backbones while using substantially less training data.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルにおける複雑な推論を促進するための有望なパラダイムとして現れており、最近の研究は、RLVRをマルチモーダルな大規模言語モデル(MLLM)にまで拡張している。
タスク関連の視覚的証拠に対する忠実な認識と、推論中にその証拠を忠実に利用することで、マルチモーダルベンチマークでは不満足な結果がもたらされる。
特に、既存の知覚監督は、画像領域にネイティブではなく、テキストによる記述で操作されることが多く、忠実な使用は概ね見過ごされ、正しく認識された証拠が削除されたり、推論中に矛盾する知覚に反する不一致を露呈する。
これらのギャップを埋めるために、我々は、忠実なマルチモーダル推論の両面に対処するために視覚的注意を固定し強化するトレーニングフレームワークであるFithful-MR1を提案する。
Anchoringステージは、知覚を明示的な事前推論サブタスクに変換し、テキスト記述ではなく、画像領域に対して専用の<Focus>トークンの注意を監督する。
強化段階は、反ファクト的なイメージ介入を通じて忠実な使用を露呈し、視覚が重要な部分の視覚的注意を集中する答えの正しい軌跡に報いる。
広範囲な実験により、Fithful-MR1はQwen2.5-VL-Instruct 3Bと7Bのバックボーンにおいて、トレーニングデータを大幅に減らしながら、最近のマルチモーダル推論ベースラインより優れていることが示された。
関連論文リスト
- CAVE: A Structured Credit Assignment Approach for Fragmented Visual Evidence Reasoning [13.024838183478858]
視覚的推論のための視覚的エビデンスのためのCredit Assignment (CAVE)を提案する。
CAVEは3つの相補的推論プロセス信号を介して、アクションレベルでの中間ステップの寄与を評価する。
TRACER-Benchは4つの非局所的かつ意味論的に不確定な推論次元を包含する。
論文 参考訳(メタデータ) (2026-05-13T16:50:24Z) - Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning [65.15766304205657]
In-context Learning (ICL) は、大規模なモデルをいくつかの例を使ってタスクに適応させるが、視覚言語モデル(VLM)への拡張は脆弱である。
我々の分析によると、基本的な限界は帰納的ギャップにあり、モデルはしばしば欠陥のある推論から正しい答えを導き出す。
帰納的帰納的プロセスとしてマルチモーダル ICL を再構成する枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-04T09:18:19Z) - Reflect to Inform: Boosting Multimodal Reasoning via Information-Gain-Driven Verification [55.357038267439684]
Visual Re-Examination (VRE)は、MLLMが視覚的な入力を追加することなく推論中に自律的に視覚的イントロスペクションを実行することができる自己進化型トレーニングフレームワークである。
VREは推論精度と知覚信頼性を継続的に改善し、特にロングチェーン環境では幻覚を著しく低減する。
論文 参考訳(メタデータ) (2026-03-27T12:22:13Z) - Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs [55.61018839017648]
CoT(Chain-of- Thought)推論は、複雑な推論タスクにおいて、MLLM(Multimodal large language model)を大幅に改善した。
既存のアプローチは、主に長いテキスト推論軌道に依存し、安定した視覚的注意ポリシーを学ぶための限られたメカニズムを提供する。
地域レベルの視覚的注意に基づく報酬を導入する強化学習フレームワークを用いて訓練された視覚的推論モデルであるSAYOを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:33:23Z) - Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文 参考訳(メタデータ) (2025-05-26T17:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。