論文の概要: Entropy Is Not Enough: Unlocking Effective Reinforcement Learning for Visual Reasoning via Vision-Anchored Token Selection
- arxiv url: http://arxiv.org/abs/2606.03937v2
- Date: Wed, 03 Jun 2026 10:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.646587
- Title: Entropy Is Not Enough: Unlocking Effective Reinforcement Learning for Visual Reasoning via Vision-Anchored Token Selection
- Title(参考訳): エントロピーは十分ではない:視覚的アンコールによる視覚的推論のための効果的な強化学習を解き放つ
- Authors: Senjie Jin, Peixin Wang, Boyang Liu, Xiaoran Fan, Shuo Li, Zhiheng Xi, Jiazheng Zhang, Yuhao Zhou, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: VEPO(Vision-Entropy token-selection for Policy Optimization)は,視覚感度とトークンエントロピーを明示的に統合した効果的なRLフレームワークである。
実験の結果,VEPOの先行性能は7Bスケールで2.28点,3Bスケールで3.15点,エントロピーのみのベースラインを著しく上回った。
- 参考スコア(独自算出の注目度): 68.2118210672375
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While token-level entropy is commonly recognized as effective for credit assignment in text-only reinforcement learning with verifiable rewards (RLVR), it remains unclear whether this mechanism still holds in visual reasoning. Our controlled study shows that this mechanism collapses in visual reasoning due to the omission of vision-sensitive tokens with naturally low entropy. Although existing multimodal RL methods increasingly acknowledge the importance of visual perception, they struggle to satisfy the inherent demand for interleaving precise perceptual grounding with semantic reasoning, either lacking systematic visual measurements or overlooking that token entropy primarily drives semantic exploration. To address this, we introduce VEPO (Vision-Entropy token-selection for Policy Optimization), an effective RL framework explicitly integrating visual sensitivity with token entropy via a principled multiplicative coupling, where VEPO redirects gradient credit toward tokens which are simultaneously visually grounded and highly informative. Extensive experiments demonstrate VEPO's leading performance, significantly outperforming the entropy-only baseline by 2.28 points at 7B-scale and 3.15 points at 3B-scale. Ablations further substantiate the soundness of our method.
- Abstract(参考訳): トークンレベルのエントロピーは、検証可能な報酬を伴うテキストのみの強化学習(RLVR)において、クレジット代入に有効であると一般的に認識されているが、このメカニズムがまだ視覚的推論に有効であるかどうかは不明である。
制御された研究により、このメカニズムは自然に低いエントロピーを持つ視覚感受性トークンの欠落により、視覚的推論において崩壊することが示された。
既存のマルチモーダルRL法は視覚的知覚の重要性をますます認識するが、意味論的推論と正確な知覚的基盤を埋める固有の要求を満たすのに苦慮している。
これを解決するために,VEPO (Vision-Entropy token-selection for Policy Optimization) という実効的なRLフレームワークを導入する。
VEPOは7Bスケールで2.28ポイント、3Bスケールで3.15ポイント、エントロピーのみのベースラインを著しく上回っている。
アブレーションは我々の方法の音質をさらに裏付ける。
関連論文リスト
- Not All Tokens Learn Alike: Attention Entropy Reveals Heterogeneous Signals in RL Reasoning [11.322734738973603]
強化学習に基づくポストトレーニングは、大規模言語モデルの推論能力を向上させるための重要なアプローチとなっている。
この研究は、各応答トークンに対する文脈支援の集中度や拡散度を測定する注意エントロピーを通して、それらの不均一性を研究する。
論文 参考訳(メタデータ) (2026-05-08T12:31:28Z) - Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models [65.57985131861399]
幻覚は、しばしば高いエントロピー状態を示す認知的分岐点と強く相関している。
本稿では,視覚的に認識可能な推論機能の内部化を目的とした,軽量で総合的なトレーニングパラダイムであるV-STARを提案する。
論文 参考訳(メタデータ) (2026-04-11T13:59:05Z) - Visually-Guided Policy Optimization for Multimodal Reasoning [60.035908460318126]
本稿では,VGPO(Visually-Guided Policy Optimization)を提案する。
VGPOは当初、視覚的類似性を活用して視覚的手がかりをローカライズし増幅する視覚的注意補償機構を導入した。
VGPOは、数学的多モーダル推論や視覚依存タスクにおいて、より優れた視覚的活性化と優れた性能を実現する。
論文 参考訳(メタデータ) (2026-04-10T14:22:38Z) - Imagination Helps Visual Reasoning, But Not Yet in Latent Space [65.80396132375571]
因果関係分析を用いた潜伏推論の有効性について検討した。
潜在トークンが限られた視覚情報を符号化し、高い類似性を示すことを示す。
CapImagineという簡単な代替案を提案し、テキストを明示的に想像するようにモデルに教える。
論文 参考訳(メタデータ) (2026-02-26T08:56:23Z) - CAPA: Contribution-Aware Pruning and FFN Approximation for Efficient Large Vision-Language Models [14.30682201364961]
本研究では,注目度をベクトルサイズで重み付けした注意貢献が,視覚的トークン選択のためのより正確な基準を提供することを示す。
本稿では、重要な機能遷移における注意貢献を用いて視覚トークンを創出する二重戦略フレームワークであるCAPA(Contribution-Aware Pruning and FFN Approximation)を紹介する。
論文 参考訳(メタデータ) (2026-01-30T19:09:03Z) - Spotlight on Token Perception for Multimodal Reinforcement Learning [65.97597482517425]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LVLM(Large Vision-Language Models)の推論能力を向上した。
本稿では,トークン認識の新しい視点を通して,マルチモーダルRLVRの先駆的な探索を行う。
本稿では、トークン認識を明示的に活用して学習信号を洗練する新しいポリシー勾配アルゴリズムである視覚知覚政策最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2025-10-10T11:25:33Z) - Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。