論文の概要: Structured Role-Aware Policy Optimization for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2605.07274v1
- Date: Fri, 08 May 2026 05:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.826962
- Title: Structured Role-Aware Policy Optimization for Multimodal Reasoning
- Title(参考訳): マルチモーダル推論のための構造的役割認識ポリシー最適化
- Authors: Bingqing Jiang, Difan Zou,
- Abstract要約: 検証可能な報酬(RLVR)からの強化学習は、大規模視覚言語モデル(LVLM)の推論能力を向上させる強力な可能性を示している。
本稿では,ロールアウェアトークンレベルのクレジット割り当ての観点から,マルチモーダルRLVRを再考する。
本稿では,代入関数を変更することなく,シーケンスレベルのGRPOの利点をロールレベルのトークンレベルに改良するSRPO(Structured Role-aware Policy Optimization)を提案する。
- 参考スコア(独自算出の注目度): 31.08329979854717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from verifiable rewards (RLVR), especially with Group Relative Policy Optimization (GRPO), has shown strong potential for improving the reasoning capabilities of large vision-language models (LVLMs). However, in multimodal reasoning, final-answer rewards are typically assigned at the sequence level and do not distinguish the functional roles of different tokens, making it difficult to determine whether a correct answer is supported by task-relevant visual evidence. In this paper, we revisit multimodal RLVR from the perspective of role-aware token-level credit assignment, where structured responses are decomposed into perception tokens for extracting visual evidence and reasoning tokens for deriving answers from that evidence. Based on this perspective, we propose Structured Role-aware Policy Optimization (SRPO), which refines the sequence-level GRPO advantage into role-aware token-level advantages without changing the reward function. Specifically, SRPO assigns role-specific credit by using self-distilled on-policy contrasts: perception tokens are emphasized according to their visual dependency under original versus corrupted visual inputs, while reasoning tokens are emphasized according to their consistency with the generated perception. These role-specific signals are further unified through a shared trajectory-level baseline, yielding positive token weights that adjust relative update magnitudes while preserving the original GRPO reward and optimization direction, without requiring external reward models or separate teachers. Experiments across diverse multimodal reasoning benchmarks show that SRPO improves evidence-grounded reasoning, highlighting the importance of moving beyond uniform sequence-level credit toward role-aware optimization for reliable multimodal reasoning.
- Abstract(参考訳): 検証可能な報酬(RLVR)、特にグループ相対政策最適化(GRPO)による強化学習は、大規模視覚言語モデル(LVLM)の推論能力を向上させる可能性を示している。
しかし、マルチモーダル推論では、最終回答報酬は典型的にはシーケンスレベルで割り当てられ、異なるトークンの機能的役割を区別しないため、タスク関連視覚的証拠によって正しい回答が支持されるかどうかを判断することは困難である。
本稿では,マルチモーダルRLVRをロール・アウェア・トークン・レベル・クレジット・アサインの観点から再検討し,構造化された応答を視覚的エビデンスを抽出するための認識トークンに分解し,そのエビデンスから回答を得るための推論トークンを抽出する。
この観点から, 報酬関数を変更することなく, シーケンスレベルGRPOの利点をロールレベルのトークンレベルに改良するSRPO (Structured Role-aware Policy Optimization) を提案する。
具体的には、SRPOは、自己蒸留オン・ポリティクス(英語版)のコントラスト(英語版)を用いてロール固有の信用を割り当てる: 知覚トークンは、元の視覚的インプットと腐敗した視覚的インプットの下で視覚的依存に基づいて強調され、一方、推論トークンは、生成された知覚との整合性に応じて強調される。
これらの役割固有の信号は、共通の軌跡レベルベースラインを通じてさらに統一され、外部の報酬モデルや教師の分離を必要とせず、オリジナルのGRPO報酬と最適化の方向を保ちながら、相対的な更新サイズを調整できる正のトークン重みが得られる。
多様なマルチモーダル推論ベンチマークによる実験により、SRPOはエビデンスに基づく推論を改善し、信頼性のあるマルチモーダル推論のためのロール・アウェア・オプティマイズへの均一なシーケンスレベル・クレジットを超えることの重要性を強調した。
関連論文リスト
- Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models [38.47027398567909]
Perception-Grounded Policy Optimization (PGPO)は、トークンレベルでのメリットを動的に再評価する、新しいきめ細かなクレジット割り当てフレームワークである。
PGPOは,言語的先行音からの勾配雑音を抑えつつ,視覚的に依存するトークンの学習信号を積極的に増幅することを示す。
理論的および実証的な分析は、PGPOが勾配の分散を効果的に減少させ、訓練の崩壊を防ぎ、頑健で知覚的なマルチモーダル推論のための強力な正則化剤として機能することを確認する。
論文 参考訳(メタデータ) (2026-04-02T09:53:20Z) - Seeing with You: Perception-Reasoning Coevolution for Multimodal Reasoning [30.60184048111503]
本稿では,共有ポリシを備えたデュアルロールRLVRフレームワークであるPRCO(Perception-Reasoning Coevolution)を紹介する。
PRCOは,ベースモデルと比較して,平均精度で7ポイント以上,モデルスケール間で一貫した改善が得られた。
論文 参考訳(メタデータ) (2026-03-30T16:03:56Z) - Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs [51.60575965819268]
本稿では,この相互依存を明示的にモデル化するToken-Reweighting(ToR)戦略を提案する。
ToRは複数のマルチモーダル推論ベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-26T06:25:27Z) - Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought [73.39221516441624]
マルチモーダル・チェーン・オブ・ソート(CoT)推論は、推論軌道を構築するために大きな視覚言語モデルを必要とする。
既存のReinforcement Learning with Verifiable Rewards (RLVR) 法は、様々な視覚的接地度を区別することなく、CoTを均一に扱う。
本稿では,隠れ状態の類似性に先立って認識を導き,トークンのエントロピーと統合する知覚探索ポリシー最適化(PEPO)を提案する。
論文 参考訳(メタデータ) (2026-03-24T06:38:00Z) - Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning [52.144281362465996]
本稿では,強化学習を長期シナリオに適用するためのEAPO(Evidence-Augmented Policy Optimization)を提案する。
最初にEvidence-Augmented Reasoningパラダイムを確立し、Tree-Structued Evidence Smplingを介して検証する。
次に、報酬モデルがグループ相対エビデンス・リワードを計算する特殊なRLアルゴリズムを導入する。
トレーニングを通して正確な監視を維持するため、適応的リワード・ポリティ共進化機構をさらに取り入れる。
論文 参考訳(メタデータ) (2026-01-15T11:40:57Z) - Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - Spotlight on Token Perception for Multimodal Reinforcement Learning [65.97597482517425]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LVLM(Large Vision-Language Models)の推論能力を向上した。
本稿では,トークン認識の新しい視点を通して,マルチモーダルRLVRの先駆的な探索を行う。
本稿では、トークン認識を明示的に活用して学習信号を洗練する新しいポリシー勾配アルゴリズムである視覚知覚政策最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2025-10-10T11:25:33Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。