論文の概要: Spotlight on Token Perception for Multimodal Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.09285v1
- Date: Fri, 10 Oct 2025 11:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.799158
- Title: Spotlight on Token Perception for Multimodal Reinforcement Learning
- Title(参考訳): マルチモーダル強化学習のためのトークン認識のスポットライト
- Authors: Siyuan Huang, Xiaoye Qu, Yafu Li, Yun Luo, Zefeng He, Daizong Liu, Yu Cheng,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、LVLM(Large Vision-Language Models)の推論能力を向上した。
本稿では,トークン認識の新しい視点を通して,マルチモーダルRLVRの先駆的な探索を行う。
本稿では、トークン認識を明示的に活用して学習信号を洗練する新しいポリシー勾配アルゴリズムである視覚知覚政策最適化(VPPO)を提案する。
- 参考スコア(独自算出の注目度): 65.97597482517425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the reasoning capabilities of Large Vision-Language Models (LVLMs), most existing methods in multimodal reasoning neglect the critical role of visual perception within the RLVR optimization process. In this paper, we undertake a pioneering exploration of multimodal RLVR through the novel perspective of token perception, which measures the visual dependency of each generated token. With a granular analysis of Chain-of-Thought (CoT) processes, we uncover two key insights: first, token perception in a rollout trajectory is sparsely distributed, where only a small fraction of tokens have high visual dependency for visually-grounded reasoning; second, different trajectories exhibit significant divergence in their overall visual dependency. Based on these observations, we propose Visually-Perceptive Policy Optimization (VPPO), a novel policy gradient algorithm that explicitly leverages token perception to refine the learning signal. Specifically, VPPO achieves this through a dual mechanism: it reweights a trajectory's advantage by its overall visual dependency, and focuses policy updates exclusively on perceptually pivotal tokens. On a comprehensive suite of eight perception and reasoning benchmarks, VPPO demonstrates substantial gains over leading open-source RL-tuned models, with its effectiveness consistently validated across 7B and 32B model scales. Our findings not only establish a new token-level perceptual perspective for analyzing multimodal RLVR but also present a novel and effective optimization strategy to significantly enhance the multimodal reasoning capabilities of LVLMs.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)は、LVLM(Large Vision-Language Models)の推論能力を進歩させているが、既存の手法のほとんどは、RLVR最適化プロセスにおける視覚知覚の重要な役割を無視している。
本稿では,各生成したトークンの視覚的依存性を測定するトークン認識の新しい視点を通じて,マルチモーダルRLVRの先駆的な探索を行う。
CoT(Chain-of-Thought)プロセスのきめ細かい分析により、まず、ロールアウト軌跡におけるトークンの認識がわずかに分散され、少数のトークンだけが視覚的に接地された推論に高い視覚的依存を持つ、という2つの重要な洞察が明らかになった。
これらの観測に基づいて,トークン認識を明示的に活用して学習信号を洗練する新しいポリシー勾配アルゴリズムである視覚知覚政策最適化(VPPO)を提案する。
具体的には、VPPOは2つのメカニズムによってこれを達成している: 全体的な視覚的依存によって、軌道の利点を再重み付けし、知覚的に重要なトークンのみにポリシー更新を集中する。
8つの知覚と推論のベンチマークからなる総合的なスイートにおいて、VPPOは7Bと32Bのモデルスケールでその有効性が一貫して検証され、主要なオープンソースRLチューニングモデルよりも大幅に向上することを示した。
本研究は,マルチモーダルRLVR解析のための新しいトークンレベルの知覚視点を確立するだけでなく,LVLMのマルチモーダル推論能力を大幅に向上させる,新しい効果的な最適化戦略を提案する。
関連論文リスト
- AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models [8.749398216116626]
視覚トークン処理機構を調べるために,特徴多様性と注目スコアエントロピーの尺度として,有効ランク(ランク)を用いた徹底的な経験分析を行った。
本分析は,多くの多様性指向プルーニング法が,意図したよりも著しく多様性を保っていることを示している。
画像認識の調整を既存のハイブリッドプルーニング戦略に組み込むことで、その性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2026-03-01T19:14:39Z) - Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization [56.083511902353365]
強化学習(Reinforcement Learning, RL)は、一般的に、大規模言語モデルの全世代にわたって一様クレジットを適用する。
この研究は、LSMの内部論理を推論自体の機械的青写真として描画する特権基板として注意を向けている。
クリティカルノードに対するターゲットクレジット割り当てを動的に行う3つの新しいRL戦略を導入する。
論文 参考訳(メタデータ) (2025-10-15T13:49:51Z) - Perception Before Reasoning: Two-Stage Reinforcement Learning for Visual Reasoning in Vision-Language Models [33.78309915588303]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を引き出すのに非常に有効であることが証明されている。
視覚言語モデル(VLM)の知覚能力と推論能力を両立させる2段階強化学習フレームワークを提案する。
提案した2段階強化学習プロセスの後,視覚言語モデルであるPeBR-R1を得た。
論文 参考訳(メタデータ) (2025-09-16T12:51:11Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。
空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。
実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T18:25:56Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning [45.39372905700317]
視覚的に豊かな情報にまたがる複雑な推論に適した新しいRLフレームワークであるVRAG-RLを紹介する。
このフレームワークにより、VLMは検索エンジンと相互作用し、シングルターンまたはマルチターン推論軌道を自律的にサンプリングする。
我々のアプローチは、RAGドメインにおけるRLの重要な制限を強調します。
論文 参考訳(メタデータ) (2025-05-28T06:30:51Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。