論文の概要: Visually-Guided Policy Optimization for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2604.09349v1
- Date: Fri, 10 Apr 2026 14:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.898879
- Title: Visually-Guided Policy Optimization for Multimodal Reasoning
- Title(参考訳): マルチモーダル推論のための視覚誘導型ポリシー最適化
- Authors: Zengbin Wang, Feng Xiong, Liang Lin, Xuecai Hu, Yong Wang, Yanlin Wang, Man Zhang, Xiangxiang Chu,
- Abstract要約: 本稿では,VGPO(Visually-Guided Policy Optimization)を提案する。
VGPOは当初、視覚的類似性を活用して視覚的手がかりをローカライズし増幅する視覚的注意補償機構を導入した。
VGPOは、数学的多モーダル推論や視覚依存タスクにおいて、より優れた視覚的活性化と優れた性能を実現する。
- 参考スコア(独自算出の注目度): 60.035908460318126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has significantly advanced the reasoning ability of vision-language models (VLMs). However, the inherent text-dominated nature of VLMs often leads to insufficient visual faithfulness, characterized by sparse attention activation to visual tokens. More importantly, our empirical analysis reveals that temporal visual forgetting along reasoning steps exacerbates this deficiency. To bridge this gap, we propose Visually-Guided Policy Optimization (VGPO), a novel framework to reinforce visual focus during policy optimization. Specifically, VGPO initially introduces a Visual Attention Compensation mechanism that leverages visual similarity to localize and amplify visual cues, while progressively elevating visual expectations in later steps to counteract visual forgetting. Building on this mechanism, we implement a dual-grained advantage re-weighting strategy: the intra-trajectory level highlights tokens exhibiting relatively high visual activation, while the inter-trajectory level prioritizes trajectories demonstrating superior visual accumulation. Extensive experiments demonstrate that VGPO achieves better visual activation and superior performance in mathematical multimodal reasoning and visual-dependent tasks.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、視覚言語モデル(VLM)の推論能力を大幅に向上させた。
しかしながら、VLMの本質的なテキストに支配される性質は、視覚的トークンに対するわずかな注意のアクティベーションを特徴とする、視覚的忠実性の欠如につながることが多い。
さらに重要なことは、我々の経験的分析によって、時間的視覚的忘れが、この欠損を悪化させることを示している。
このギャップを埋めるために、我々は、ポリシー最適化中の視覚的焦点を強化する新しいフレームワークである視覚誘導政策最適化(VGPO)を提案する。
具体的には、VGPOは、視覚的類似性を活用して視覚的手がかりをローカライズし、増幅する視覚的注意補償機構を導入し、視覚的忘れを防止すべく、後のステップで視覚的期待を徐々に高めている。
軌道内レベルは比較的高い視覚的アクティベーションを示すトークンを強調し、軌道間レベルはより優れた視覚的蓄積を示すトラジェクトリを優先する。
大規模な実験により、VGPOは数学的マルチモーダル推論や視覚依存タスクにおいて、より優れた視覚的活性化と優れた性能を達成することが示された。
関連論文リスト
- Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models [66.96421290733126]
VLA(Vision-Language-Action)モデルは、ロボット操作のための有望なパラダイムとして登場した。
我々はtextbfVision-Language Mixture-of-Transformers (VL-MoT) フレームワーク上に構築した textbfDeepVision-VLA を提案する。
DeepVision-VLAは、シミュレーションされたタスクと実世界のタスクで、それぞれ9.0%と7.5%の先行の最先端メソッドより優れている。
論文 参考訳(メタデータ) (2026-03-16T17:59:54Z) - Spotlight on Token Perception for Multimodal Reinforcement Learning [65.97597482517425]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LVLM(Large Vision-Language Models)の推論能力を向上した。
本稿では,トークン認識の新しい視点を通して,マルチモーダルRLVRの先駆的な探索を行う。
本稿では、トークン認識を明示的に活用して学習信号を洗練する新しいポリシー勾配アルゴリズムである視覚知覚政策最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2025-10-10T11:25:33Z) - Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。