論文の概要: Reflection Anchors for Propagation-Aware Visual Retention in Long-Chain Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2605.09614v1
- Date: Sun, 10 May 2026 15:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.334169
- Title: Reflection Anchors for Propagation-Aware Visual Retention in Long-Chain Multimodal Reasoning
- Title(参考訳): 長鎖多モード共振器における伝搬型視覚保持のための反射アンカー
- Authors: Xuan Gong, Hanbo Huang, Hao Zheng, Yiran Zhang, Wenbin Dai, Weishu Zhao, Shiyu Liang,
- Abstract要約: ロングチェーン・オブ・ソート(CoT)推論は、大きな視覚依存モデルを改善するが、生成時に視覚情報が消えることが多い。
既存の方法は、視覚推論を再注入するか、より強力な接地のためのポリシーを訓練する。
我々はこの問題を情報理論の観点から研究し、ワンステップ介入による下流の視覚的利得の低い境界を導出する。
- 参考スコア(独自算出の注目度): 13.390348642117557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long chain-of-thought (CoT) reasoning improves large vision--language models, but visual information often fades during generation, limiting long-horizon multimodal reasoning. Existing methods either re-inject vision at inference or train policies for stronger grounding, but where to intervene relies on perception heuristics rather than principled gain analysis, and how local visual influence propagates remains implicit. We study this problem from an information-theoretic standpoint and derive a lower bound on the downstream visual gain of a one-step intervention, which suggests two factors: local branching room (token entropy) and downstream visual propagation potential (suffix divergence from a vision-marginalized reference). Guided by this analysis, we propose reflection-anchor policy optimization (RAPO), a GRPO-based policy optimization method that selects high-entropy reflection anchors and optimizes a chain-masked finite-window KL surrogate for downstream visual dependence. Experiments on reasoning-intensive and general-domain benchmarks show that RAPO delivers substantial gains over strong baselines across multiple LVLM backbones. Mechanism analyses further indicate that reflection anchors are enriched for visually sensitive decision points and that RAPO increases contrastive visual-dependence signals along generated trajectories.
- Abstract(参考訳): ロングチェーン・オブ・ソート推論(英語版)(CoT)は、大きな視覚言語モデルを改善するが、視覚情報は世代によって減少し、長い水平多モード推論を制限する。
既存の手法では、推論時の視覚を再注入するか、より強力な接地のための政策を訓練するが、どこに介入するかは、利得分析よりも知覚ヒューリスティックスに依存しており、局所的な視覚的影響がどのように伝播するかが暗黙的に残っている。
我々は,この問題を情報理論の観点から研究し,ワンステップ介入による下流視覚的利得の低い境界を導出する。これは,局所分岐室(トケンエントロピー)と下流視覚的伝播電位(視覚マージナライズされた参照からの相違)の2つの要因を示唆する。
本稿では,高エントロピーなリフレクションアンカーを選択するGRPOベースのポリシー最適化手法であるリフレクション・アンカー・ポリシー最適化(RAPO)を提案し,下流の視覚的依存に対してチェーンメイドの有限ウィンドウKLサロゲートを最適化する。
推論集約および一般ドメインベンチマークの実験により、RAPOは複数のLVLMバックボーンにまたがる強いベースラインよりも大幅に向上することが示された。
メカニズム解析により、反射アンカーは視覚に敏感な決定点に富み、RAPOは生成した軌跡に沿って対照的な視覚依存性信号を増加させることが示された。
関連論文リスト
- Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs [66.15429821530503]
Persistent Visual Memoryは、ビジュアルエビデンスへの持続的でオンデマンドアクセスを強化するために設計された、軽量の学習可能なモジュールである。
Qwen3-VLモデルの実験は、PVMが無視可能なパラメータオーバーヘッドで顕著な改善をもたらすことを示した。
詳細な分析により、PVMはより長い世代で堅牢性が向上し、内部予測収束が加速することが明らかとなった。
論文 参考訳(メタデータ) (2026-05-01T17:54:37Z) - Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models [65.57985131861399]
幻覚は、しばしば高いエントロピー状態を示す認知的分岐点と強く相関している。
本稿では,視覚的に認識可能な推論機能の内部化を目的とした,軽量で総合的なトレーニングパラダイムであるV-STARを提案する。
論文 参考訳(メタデータ) (2026-04-11T13:59:05Z) - Visually-Guided Policy Optimization for Multimodal Reasoning [60.035908460318126]
本稿では,VGPO(Visually-Guided Policy Optimization)を提案する。
VGPOは当初、視覚的類似性を活用して視覚的手がかりをローカライズし増幅する視覚的注意補償機構を導入した。
VGPOは、数学的多モーダル推論や視覚依存タスクにおいて、より優れた視覚的活性化と優れた性能を実現する。
論文 参考訳(メタデータ) (2026-04-10T14:22:38Z) - Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models [38.47027398567909]
Perception-Grounded Policy Optimization (PGPO)は、トークンレベルでのメリットを動的に再評価する、新しいきめ細かなクレジット割り当てフレームワークである。
PGPOは,言語的先行音からの勾配雑音を抑えつつ,視覚的に依存するトークンの学習信号を積極的に増幅することを示す。
理論的および実証的な分析は、PGPOが勾配の分散を効果的に減少させ、訓練の崩壊を防ぎ、頑健で知覚的なマルチモーダル推論のための強力な正則化剤として機能することを確認する。
論文 参考訳(メタデータ) (2026-04-02T09:53:20Z) - Beyond Where to Look: Trajectory-Guided Reinforcement Learning for Multimodal RLVR [30.94808389410323]
Trajectory-Guided Reinforcement Learningは、視覚的証拠をきめ細かな推論プロセスに統合するためのポリシーモデルを導く。
複数のマルチモーダル推論ベンチマークの実験は、TGRLが一貫して推論性能を改善することを示した。
論文 参考訳(メタデータ) (2026-03-27T07:18:18Z) - Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought [73.39221516441624]
マルチモーダル・チェーン・オブ・ソート(CoT)推論は、推論軌道を構築するために大きな視覚言語モデルを必要とする。
既存のReinforcement Learning with Verifiable Rewards (RLVR) 法は、様々な視覚的接地度を区別することなく、CoTを均一に扱う。
本稿では,隠れ状態の類似性に先立って認識を導き,トークンのエントロピーと統合する知覚探索ポリシー最適化(PEPO)を提案する。
論文 参考訳(メタデータ) (2026-03-24T06:38:00Z) - Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment [97.55382322103986]
Hit-RAGは認知的ボトルネックを解決するために設計された多段階の優先順位調整フレームワークである。
本手法は,3つの異なる段階を通じて外部証拠の利用を体系的に改善する。
論文 参考訳(メタデータ) (2026-03-07T04:05:27Z) - Spotlight on Token Perception for Multimodal Reinforcement Learning [65.97597482517425]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LVLM(Large Vision-Language Models)の推論能力を向上した。
本稿では,トークン認識の新しい視点を通して,マルチモーダルRLVRの先駆的な探索を行う。
本稿では、トークン認識を明示的に活用して学習信号を洗練する新しいポリシー勾配アルゴリズムである視覚知覚政策最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2025-10-10T11:25:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。