論文の概要: Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2603.22847v1
- Date: Tue, 24 Mar 2026 06:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.336295
- Title: Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought
- Title(参考訳): マルチモーダル・オブ・サートのためのトークンレベル政策最適化の再考
- Authors: Yunheng Li, Hangyi Kuang, Hengrui Zhang, Jiangxia Cao, Zhaojie Liu, Qibin Hou, Ming-Ming Cheng,
- Abstract要約: マルチモーダル・チェーン・オブ・ソート(CoT)推論は、推論軌道を構築するために大きな視覚言語モデルを必要とする。
既存のReinforcement Learning with Verifiable Rewards (RLVR) 法は、様々な視覚的接地度を区別することなく、CoTを均一に扱う。
本稿では,隠れ状態の類似性に先立って認識を導き,トークンのエントロピーと統合する知覚探索ポリシー最適化(PEPO)を提案する。
- 参考スコア(独自算出の注目度): 73.39221516441624
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal Chain-of-Thought (CoT) reasoning requires large vision-language models to construct reasoning trajectories that interleave perceptual grounding with multi-step inference. However, existing Reinforcement Learning with Verifiable Rewards (RLVR) methods typically optimize reasoning at a coarse granularity, treating CoT uniformly without distinguishing their varying degrees of visual grounding. In this work, we conduct a token-level analysis of multimodal reasoning trajectories and show that successful reasoning is characterized by structured token dynamics reflecting both perceptual grounding and exploratory inference. Building upon this analysis, we propose Perception-Exploration Policy Optimization (PEPO), which derives a perception prior from hidden state similarity and integrates it with token entropy through a smooth gating mechanism to produce token-level advantages. PEPO integrates seamlessly with existing RLVR frameworks such as GRPO and DAPO, requiring neither additional supervision nor auxiliary branches. Extensive experiments across diverse multimodal benchmarks demonstrate consistent and robust improvements over strong RL baselines, spanning geometry reasoning, visual grounding, visual puzzle solving, and few-shot classification, while maintaining stable training dynamics. Code: https://github.com/xzxxntxdy/PEPO
- Abstract(参考訳): マルチモーダル・チェーン・オブ・ソート(CoT)推論は、多段階推論で知覚的グラウンドをインターリーブする推論軌道を構築するために、大きな視覚言語モデルを必要とする。
しかし、既存のReinforcement Learning with Verifiable Rewards (RLVR) 法は、通常、粗い粒度の推論を最適化し、CoTを様々な視覚的接地度を区別することなく均一に扱う。
本研究では,マルチモーダル推論軌跡のトークンレベル解析を行い,有意な推論は,知覚的グラウンドと探索的推論の両方を反映した構造化トークンダイナミクスによって特徴づけられることを示す。
この分析に基づいて,隠れ状態の類似性から先立って知覚を導き,円滑なゲーティング機構を通じてトークンエントロピーと統合し,トークンレベルの優位性を生み出す,知覚探索政策最適化(PEPO)を提案する。
PEPOはGRPOやDAPOといった既存のRLVRフレームワークとシームレスに統合され、追加の監視や補助的なブランチを必要としない。
多様なマルチモーダルベンチマークにわたる広範囲な実験は、強力なRLベースライン、幾何学的推論、視覚的グラウンドリング、視覚パズルの解法、数ショットの分類にまたがる、一貫性と堅牢な改善を示しながら、安定したトレーニングダイナミクスを維持している。
コード:https://github.com/xzxxntxdy/PEPO
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - CASHEW: Stabilizing Multimodal Reasoning via Iterative Trajectory Aggregation [6.356820150960838]
視覚言語モデルを安定させるために,テスト時間スケーリングにインスパイアされた2つの補完的アプローチを導入する。
CASHEWは推論時のフレームワークで、複数の候補軌道を高品質な推論トレースに反復的に集約することで推論を安定化する。
CASHEW-RL はグループシーケンスポリシー最適化 (GSPO) を用いて訓練されており、最小でも十分な視覚的証拠に根ざした正しい回答を促す複合報酬が提供されている。
論文 参考訳(メタデータ) (2026-01-12T21:24:45Z) - Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space [46.05748768260013]
テスト時間動的マルチモーダル遅延推論フレームワークを提案する。
信頼誘導の潜在ポリシー勾配最適化を、詳細な推論のために潜在シンクトークンに採用する。
7つのマルチモーダル推論ベンチマークと様々なモデルアーキテクチャによる実験により、DMLRは推論性能と知覚性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-12-14T10:07:45Z) - Multi-Path Collaborative Reasoning via Reinforcement Learning [54.8518809800168]
CoT(Chain-of-Thought)推論は、LLM(Large Language Models)の問題解決能力を大幅に向上させた。
最近の手法では、連続的な意味空間における推論を可能にするために、ソフトな抽象トークンを生成することでこの問題に対処しようとしている。
提案するM3PO(Multi-Path Perception Policy Optimization)は,推論プロセスに集団的洞察を明示的に注入する,新たな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T10:05:46Z) - Spotlight on Token Perception for Multimodal Reinforcement Learning [65.97597482517425]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LVLM(Large Vision-Language Models)の推論能力を向上した。
本稿では,トークン認識の新しい視点を通して,マルチモーダルRLVRの先駆的な探索を行う。
本稿では、トークン認識を明示的に活用して学習信号を洗練する新しいポリシー勾配アルゴリズムである視覚知覚政策最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2025-10-10T11:25:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。