論文の概要: Credit Where It is Due: Cross-Modality Connectivity Drives Precise Reinforcement Learning for MLLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.11455v1
- Date: Thu, 12 Feb 2026 00:20:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.587012
- Title: Credit Where It is Due: Cross-Modality Connectivity Drives Precise Reinforcement Learning for MLLM Reasoning
- Title(参考訳): クロスモーダルコネクティビティはMLLM推論のための精密強化学習を駆動する
- Authors: Zhengbo Jiao, Shaobo Wang, Zifan Zhang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang,
- Abstract要約: 推論において視覚的エビデンスがどのように統合されているかは、いまだに理解されていない。
本稿では,高結合性トークンを選択的に強化する軽量フレームワークであるAnchor-Token Reinforcement Learning (AT-RL)を提案する。
我々の研究は、推論の品質はトークン量ではなく、クロスモーダルアンカーの忠実さによって管理されていることを明らかにしている。
- 参考スコア(独自算出の注目度): 11.021067780524348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has significantly advanced the reasoning capabilities of Multimodal Large Language Models (MLLMs), yet how visual evidence is integrated during reasoning remains poorly understood. We explore multimodal RLVR through the lens of cross-modal attention connectivity and find that only a small fraction of tokens (approximately 15%) exhibit strong visual-textual coupling. These high-connectivity tokens act as anchors that ground reasoning in the image, while the majority follow linguistic patterns. During RLVR training, credit assignment naturally concentrates on these anchors, sharpening their visual grounding over time. Building on this insight, we propose Anchor-Token Reinforcement Learning (AT-RL), a lightweight framework that selectively reinforces high-connectivity tokens via graph-based clustering of attention topology. Evaluated across the series (3B-32B), AT-RL introduces only 1.2% overhead yet enables the 32B model to surpass the 72B-Instruct baseline on MathVista (80.2), with consistent gains observed across STEM, video and general tasks. Conversely, training solely on low-connectivity tokens causes severe degradation, confirming that effective multimodal RL hinges on precise credit assignment to visual anchors. Our work reveals that reasoning quality is governed not by token quantity but by the fidelity of cross-modal anchoring.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、MLLM(Multimodal Large Language Models)の推論能力を大幅に向上させてきたが、推論中に視覚的エビデンスがどのように統合されているかは理解されていない。
マルチモーダルなRLVRを多モードのアテンション接続のレンズで探索し、わずかなトークン(約15%)だけが強い視覚的・テキスト的結合を示すことを発見した。
これらの高結合性トークンは、画像の根拠となる推論のアンカーとして機能し、大多数は言語パターンに従っている。
RLVRトレーニング中、クレジットの割り当ては自然にこれらのアンカーに集中し、時間の経過とともに視覚的接地を鋭くする。
この知見に基づいて,注目トポロジのグラフベースのクラスタリングを通じて高結合性トークンを選択的に強化する軽量フレームワークであるAnchor-Token Reinforcement Learning (AT-RL)を提案する。
シリーズ(3B-32B)全体で評価され、AT-RLはわずか1.2%のオーバーヘッドしか導入していないが、32BモデルはMathVista(80.2)の72B-Instructベースラインを越え、STEM、ビデオ、一般的なタスクで一貫した利得を達成している。
逆に、低接続性トークンのみによるトレーニングは深刻な劣化を引き起こし、効果的なマルチモーダルRLヒンジが視覚アンカーへの正確なクレジット割り当てに依存していることを確認する。
我々の研究は、推論の品質はトークン量ではなく、クロスモーダルアンカーの忠実さによって管理されていることを明らかにしている。
関連論文リスト
- Spotlight on Token Perception for Multimodal Reinforcement Learning [65.97597482517425]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LVLM(Large Vision-Language Models)の推論能力を向上した。
本稿では,トークン認識の新しい視点を通して,マルチモーダルRLVRの先駆的な探索を行う。
本稿では、トークン認識を明示的に活用して学習信号を洗練する新しいポリシー勾配アルゴリズムである視覚知覚政策最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2025-10-10T11:25:33Z) - AttAnchor: Guiding Cross-Modal Token Alignment in VLMs with Attention Anchors [3.9039205692819547]
本研究では,意味論的に類似したトークンをモダリティ間で効率的にグループ化するパラメータフリーフレームワークであるAttention Anchorを提案する。
関連する視覚的パッチの近くにテキストトークンを挿入することで、真のコンテンツベースのクロスモーダルアテンションスコアを示すセマンティックなサインポストを作成する。
AttAnchorは15のメトリクスとベンチマークのうち13の改善を実現している。
論文 参考訳(メタデータ) (2025-09-27T04:37:26Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model [82.93634081255942]
本稿では,MLLMが低コストを維持しつつ高い精度を達成できるビジョン言語コネクタを提案する。
まず、視覚変換器における視覚アンカーの存在を明らかにし、それらを抽出するためのコスト効率の良い探索アルゴリズムを提案する。
Anchor former (AcFormer) は、事前学習中に得られた視覚的アンカーから得られる豊富な事前知識を活用するために設計された、新しい視覚言語コネクタである。
論文 参考訳(メタデータ) (2024-05-28T04:23:00Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。