論文の概要: From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2603.03825v1
- Date: Wed, 04 Mar 2026 08:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.23231
- Title: From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning
- Title(参考訳): 狭間からパノラマ視:マルチモーダル推論の注意誘導型コールドスタート
- Authors: Ruilin Luo, Chufan Shi, Yizhen Zhang, Cheng Yang, Songtao Jiang, Tongkun Guan, Ruizhe Chen, Ruihang Chu, Peng Wang, Mingkun Yang, Yujiu Yang, Junyang Lin, Zhibo Yang,
- Abstract要約: 推論性能は視覚注意スコア(VAS)と強く相関していることがわかった。
その因果的役割を検証するため、推論中の注意配分を直接調整する訓練不要な介入を設計する。
本研究では、視覚的アンコールデータ合成、注意誘導目的、視覚的アンコール報酬形成を統合した総合的なコールドスタートフレームワークである注意誘導視覚アンコールとリフレクションを提案する。
- 参考スコア(独自算出の注目度): 72.4876727619987
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The cold-start initialization stage plays a pivotal role in training Multimodal Large Reasoning Models (MLRMs), yet its mechanisms remain insufficiently understood. To analyze this stage, we introduce the Visual Attention Score (VAS), an attention-based metric that quantifies how much a model attends to visual tokens. We find that reasoning performance is strongly correlated with VAS (r=0.9616): models with higher VAS achieve substantially stronger multimodal reasoning. Surprisingly, multimodal cold-start fails to elevate VAS, resulting in attention distributions close to the base model, whereas text-only cold-start leads to a clear increase. We term this counter-intuitive phenomenon Lazy Attention Localization. To validate its causal role, we design training-free interventions that directly modulate attention allocation during inference, performance gains of 1$-$2% without any retraining. Building on these insights, we further propose Attention-Guided Visual Anchoring and Reflection (AVAR), a comprehensive cold-start framework that integrates visual-anchored data synthesis, attention-guided objectives, and visual-anchored reward shaping. Applied to Qwen2.5-VL-7B, AVAR achieves an average gain of 7.0% across 7 multimodal reasoning benchmarks. Ablation studies further confirm that each component of AVAR contributes step-wise to the overall gains. The code, data, and models are available at https://github.com/lrlbbzl/Qwen-AVAR.
- Abstract(参考訳): コールドスタート初期化段階はマルチモーダル大推論モデル(MLRM)の訓練において重要な役割を担っているが、そのメカニズムは十分に理解されていない。
この段階を解析するために、視覚的注意スコア(VAS)を導入する。
推論性能はVAS(r=0.9616)と強く相関していることが判明した。
驚くべきことに、マルチモーダルのコールドスタートはVASの上昇に失敗し、ベースモデルに近い注意分布をもたらすが、テキストのみのコールドスタートは明らかに増加する。
この反直感的現象を遅延注意局所化と呼ぶ。
その因果的役割を検証するため、推論中の注意配分を直接調整する訓練不要の介入を設計し、再トレーニングなしに1-2%の性能向上を図った。
これらの知見に基づいて,視覚的アンチョアデータ合成,注意誘導目的,視覚的アンチョア報酬形成を統合した総合的なコールドスタートフレームワークである,注意誘導型視覚アンチョア・リフレクション(AVAR)を提案する。
Qwen2.5-VL-7Bに適用すると、AVARは7つのマルチモーダル推論ベンチマークで平均7.0%向上する。
アブレーション研究により、AVARの各成分が全体的な利得に段階的に寄与することが明らかとなった。
コード、データ、モデルはhttps://github.com/lrlbbzl/Qwen-AVAR.comで公開されている。
関連論文リスト
- ActionCodec: What Makes for Good Action Tokenizers [106.78093973045526]
VLA(Vision-Language-Action)モデルでは、より優れた命令追従と訓練効率が示されている。
このパラダイムの中心はアクショントークン化であるが、その設計は主に再構築の忠実さに焦点を当てている。
我々は、トレーニング効率とVLA性能の両方を大幅に向上させる高性能なアクショントークンであるtextbfActionCodecを紹介する。
論文 参考訳(メタデータ) (2026-02-17T07:07:15Z) - Credit Where It is Due: Cross-Modality Connectivity Drives Precise Reinforcement Learning for MLLM Reasoning [11.021067780524348]
推論において視覚的エビデンスがどのように統合されているかは、いまだに理解されていない。
本稿では,高結合性トークンを選択的に強化する軽量フレームワークであるAnchor-Token Reinforcement Learning (AT-RL)を提案する。
我々の研究は、推論の品質はトークン量ではなく、クロスモーダルアンカーの忠実さによって管理されていることを明らかにしている。
論文 参考訳(メタデータ) (2026-02-12T00:20:54Z) - ChainV: Atomic Visual Hints Make Multimodal Reasoning Shorter and Better [59.29940512530982]
推論プロセスに視覚的ヒントを動的に統合するフレームワークChainVを提案する。
提案手法は,特に算数集約ベンチマークにおいて,推論精度と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-21T10:11:17Z) - Spotlight on Token Perception for Multimodal Reinforcement Learning [65.97597482517425]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LVLM(Large Vision-Language Models)の推論能力を向上した。
本稿では,トークン認識の新しい視点を通して,マルチモーダルRLVRの先駆的な探索を行う。
本稿では、トークン認識を明示的に活用して学習信号を洗練する新しいポリシー勾配アルゴリズムである視覚知覚政策最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2025-10-10T11:25:33Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - VisuRiddles: Fine-grained Perception is a Primary Bottleneck for Multimodal Large Language Models in Abstract Visual Reasoning [70.44416154144001]
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、多くの推論タスクにおいて、その性能を著しく向上させてきた。
AVR(Abstract Visual Reasoning)は、抽象グラフィックの知覚に制限があるため、依然として重要な課題である。
PRSのベンチマークであるVisuRiddlesを提案し、モデルの推論能力を評価するために精巧に構築されたタスクを特徴付ける。
第二に、パーセプチュアル・リドル・シンセサイザー (PRS) を導入する。
論文 参考訳(メタデータ) (2025-06-03T07:24:00Z) - STAR: Stage-Wise Attention-Guided Token Reduction for Efficient Large Vision-Language Models Inference [3.9464481148889354]
我々は,グローバルな視点からトークンプルーニングにアプローチする,トレーニングフリーのプラグアンドプレイフレームワークSTAR(Stage-wise Attention-guided token Reduction)を提案する。
単一ポイントでプルーニングする代わりに、STARは視覚的自己注意に基づく早期プルーニングで冗長な低レベル特徴を除去し、タスク非関連トークンを捨てるために、クロスモーダルな注意でガイドされる後期プルーニングという2つの相補的な段階において注意誘導還元を行う。
論文 参考訳(メタデータ) (2025-05-18T10:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。