Fugu-MT 論文翻訳(概要): Visually-Guided Policy Optimization for Multimodal Reasoning

論文の概要: Visually-Guided Policy Optimization for Multimodal Reasoning

arxiv url: http://arxiv.org/abs/2604.09349v1
Date: Fri, 10 Apr 2026 14:22:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-13 17:57:53.898879
Title: Visually-Guided Policy Optimization for Multimodal Reasoning
Title（参考訳）: マルチモーダル推論のための視覚誘導型ポリシー最適化
Authors: Zengbin Wang, Feng Xiong, Liang Lin, Xuecai Hu, Yong Wang, Yanlin Wang, Man Zhang, Xiangxiang Chu,
Abstract要約: 本稿では,VGPO(Visually-Guided Policy Optimization)を提案する。 VGPOは当初、視覚的類似性を活用して視覚的手がかりをローカライズし増幅する視覚的注意補償機構を導入した。 VGPOは、数学的多モーダル推論や視覚依存タスクにおいて、より優れた視覚的活性化と優れた性能を実現する。
参考スコア（独自算出の注目度）: 60.035908460318126
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning with verifiable rewards (RLVR) has significantly advanced the reasoning ability of vision-language models (VLMs). However, the inherent text-dominated nature of VLMs often leads to insufficient visual faithfulness, characterized by sparse attention activation to visual tokens. More importantly, our empirical analysis reveals that temporal visual forgetting along reasoning steps exacerbates this deficiency. To bridge this gap, we propose Visually-Guided Policy Optimization (VGPO), a novel framework to reinforce visual focus during policy optimization. Specifically, VGPO initially introduces a Visual Attention Compensation mechanism that leverages visual similarity to localize and amplify visual cues, while progressively elevating visual expectations in later steps to counteract visual forgetting. Building on this mechanism, we implement a dual-grained advantage re-weighting strategy: the intra-trajectory level highlights tokens exhibiting relatively high visual activation, while the inter-trajectory level prioritizes trajectories demonstrating superior visual accumulation. Extensive experiments demonstrate that VGPO achieves better visual activation and superior performance in mathematical multimodal reasoning and visual-dependent tasks.
Abstract（参考訳）: 検証可能な報酬付き強化学習(RLVR)は、視覚言語モデル(VLM)の推論能力を大幅に向上させた。しかしながら、VLMの本質的なテキストに支配される性質は、視覚的トークンに対するわずかな注意のアクティベーションを特徴とする、視覚的忠実性の欠如につながることが多い。さらに重要なことは、我々の経験的分析によって、時間的視覚的忘れが、この欠損を悪化させることを示している。このギャップを埋めるために、我々は、ポリシー最適化中の視覚的焦点を強化する新しいフレームワークである視覚誘導政策最適化(VGPO)を提案する。具体的には、VGPOは、視覚的類似性を活用して視覚的手がかりをローカライズし、増幅する視覚的注意補償機構を導入し、視覚的忘れを防止すべく、後のステップで視覚的期待を徐々に高めている。軌道内レベルは比較的高い視覚的アクティベーションを示すトークンを強調し、軌道間レベルはより優れた視覚的蓄積を示すトラジェクトリを優先する。大規模な実験により、VGPOは数学的マルチモーダル推論や視覚依存タスクにおいて、より優れた視覚的活性化と優れた性能を達成することが示された。

論文の概要: Visually-Guided Policy Optimization for Multimodal Reasoning

関連論文リスト