論文の概要: Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.01840v1
- Date: Thu, 02 Apr 2026 09:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.662376
- Title: Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models
- Title(参考訳): すべてのトークンが等しく見えるわけではない:大規模ビジョンランゲージモデルに対する知覚を包含したポリシー最適化
- Authors: Zekai Ye, Qiming Li, Xiaocheng Feng, Ruihan Chen, Ziming Li, Haoyu Ren, Kun Chen, Dandan Tu, Bing Qin,
- Abstract要約: Perception-Grounded Policy Optimization (PGPO)は、トークンレベルでのメリットを動的に再評価する、新しいきめ細かなクレジット割り当てフレームワークである。
PGPOは,言語的先行音からの勾配雑音を抑えつつ,視覚的に依存するトークンの学習信号を積極的に増幅することを示す。
理論的および実証的な分析は、PGPOが勾配の分散を効果的に減少させ、訓練の崩壊を防ぎ、頑健で知覚的なマルチモーダル推論のための強力な正則化剤として機能することを確認する。
- 参考スコア(独自算出の注目度): 38.47027398567909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Reinforcement Learning from Verifiable Rewards (RLVR) has advanced reasoning in Large Vision-Language Models (LVLMs), prevailing frameworks suffer from a foundational methodological flaw: by distributing identical advantages across all generated tokens, these methods inherently dilute the learning signals essential for optimizing the critical, visually-grounded steps of multimodal reasoning. To bridge this gap, we formulate \textit{Token Visual Dependency}, quantifying the causal information gain of visual inputs via the Kullback-Leibler (KL) divergence between visual-conditioned and text-only predictive distributions. Revealing that this dependency is highly sparse and semantically pivotal, we introduce Perception-Grounded Policy Optimization (PGPO), which is a novel fine-grained credit assignment framework that dynamically reshapes advantages at the token level. Through a threshold-gated, mass-conserving mechanism, PGPO actively amplifies learning signals for visually-dependent tokens while suppressing gradient noise from linguistic priors. Extensive experiments based on the Qwen2.5-VL series across seven challenging multimodal reasoning benchmarks demonstrate that PGPO boosts models by 18.7% on average. Both theoretical and empirical analyses confirm that PGPO effectively reduces gradient variance, prevents training collapse, and acts as a potent regularizer for robust, perception-grounded multimodal reasoning. Code will be published on https://github.com/Yzk1114/PGPO.
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR)は、LVLM(Large Vision-Language Models)において高度な推論を持っているが、一般的なフレームワークは基本的な方法論上の欠陥に悩まされている。
このギャップを埋めるため、視覚条件付きとテキストのみの予測分布間のKL(Kullback-Leibler)分散を介して視覚入力の因果情報ゲインを定量化するために、textit{Token Visual Dependency} を定式化する。
トークンレベルでのメリットを動的に再認識する新しいきめ細かな信用割当フレームワークであるPerception-Grounded Policy Optimization (PGPO)を紹介します。
PGPOは、しきい値付き大量保存機構を通じて、視覚的に依存するトークンの学習信号を積極的に増幅し、言語的先行から勾配雑音を抑える。
Qwen2.5-VLシリーズに基づく大規模な実験では、7つの挑戦的なマルチモーダル推論ベンチマークがPGPOが平均18.7%の速度でモデルを加速することを示した。
理論的および実証的な分析は、PGPOが勾配の分散を効果的に低減し、トレーニングの崩壊を防止し、頑健で知覚的なマルチモーダル推論のための強力な正則化剤として機能することを確認する。
コードはhttps://github.com/Yzk1114/PGPOで公開される。
関連論文リスト
- Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs [51.60575965819268]
本稿では,この相互依存を明示的にモデル化するToken-Reweighting(ToR)戦略を提案する。
ToRは複数のマルチモーダル推論ベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-26T06:25:27Z) - Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought [73.39221516441624]
マルチモーダル・チェーン・オブ・ソート(CoT)推論は、推論軌道を構築するために大きな視覚言語モデルを必要とする。
既存のReinforcement Learning with Verifiable Rewards (RLVR) 法は、様々な視覚的接地度を区別することなく、CoTを均一に扱う。
本稿では,隠れ状態の類似性に先立って認識を導き,トークンのエントロピーと統合する知覚探索ポリシー最適化(PEPO)を提案する。
論文 参考訳(メタデータ) (2026-03-24T06:38:00Z) - Spotlight on Token Perception for Multimodal Reinforcement Learning [65.97597482517425]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LVLM(Large Vision-Language Models)の推論能力を向上した。
本稿では,トークン認識の新しい視点を通して,マルチモーダルRLVRの先駆的な探索を行う。
本稿では、トークン認識を明示的に活用して学習信号を洗練する新しいポリシー勾配アルゴリズムである視覚知覚政策最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2025-10-10T11:25:33Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。