論文の概要: Seeing with You: Perception-Reasoning Coevolution for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2603.28618v1
- Date: Mon, 30 Mar 2026 16:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.500559
- Title: Seeing with You: Perception-Reasoning Coevolution for Multimodal Reasoning
- Title(参考訳): あなたと見る:マルチモーダル推論のための知覚推論共進化
- Authors: Ziqi Miao, Haonan Jia, Lijun Li, Chen Qian, Yuan Xiong, Wenting Yan, Jing Shao,
- Abstract要約: 本稿では,共有ポリシを備えたデュアルロールRLVRフレームワークであるPRCO(Perception-Reasoning Coevolution)を紹介する。
PRCOは,ベースモデルと比較して,平均精度で7ポイント以上,モデルスケール間で一貫した改善が得られた。
- 参考スコア(独自算出の注目度): 30.60184048111503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has substantially enhanced the reasoning capabilities of multimodal large language models (MLLMs). However, existing RLVR approaches typically rely on outcome-driven optimization that updates both perception and reasoning using a shared reward based solely on the final answer. This shared reward blurs credit assignment, frequently improving reasoning patterns while failing to reliably enhance the accuracy of upstream visual evidence extraction. To address this perception bottleneck, we introduce PRCO (Perception-Reasoning Coevolution), a dual-role RLVR framework with a shared policy. PRCO consists of two cooperative roles: an Observer that generates an evidence caption tailored to the question and a Solver that predicts the final answer based on this caption. Crucially, PRCO employs role-specific reward signals: the Solver is optimized using verifiable outcome rewards on the final answer, while the Observer receives a utility reward derived from the Solver's downstream success. Extensive experiments across eight challenging multimodal reasoning benchmarks demonstrate that PRCO yields consistent improvements across model scales by over 7 points on average accuracy compared to the base model, outperforming prior open-source RL-tuned baselines.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は,マルチモーダル大言語モデル(MLLM)の推論能力を大幅に向上させた。
しかし、既存のRLVRアプローチは一般的に、最終回答のみに基づいて共有報酬を使用して知覚と推論の両方を更新する結果駆動の最適化に依存している。
この共有報酬は、クレジットの割り当てを曖昧にし、しばしば推論パターンを改善し、上流の視覚的証拠抽出の精度を確実に向上させるのに失敗する。
このような認識ボトルネックに対処するために,共有ポリシを備えたデュアルロールRLVRフレームワークであるPRCO(Perception-Reasoning Coevolution)を導入する。
PRCOは2つの協力的な役割で構成されており、質問に合わせた証拠のキャプションを生成するオブザーバーと、このキャプションに基づいて最終回答を予測するソルバーである。
重要なことに、PRCOはロール固有の報酬信号を使用する:ソルバーは最終回答の検証結果の報酬を使って最適化され、オブザーバーはソルバーの下流の成功に由来する実用的報酬を受け取る。
8つの挑戦的マルチモーダル推論ベンチマークによる大規模な実験により、PRCOはベースモデルと比較して平均精度でモデルスケールを7ポイント以上改善し、以前のオープンソースのRLチューニングベースラインを上回った。
関連論文リスト
- Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning [52.144281362465996]
本稿では,強化学習を長期シナリオに適用するためのEAPO(Evidence-Augmented Policy Optimization)を提案する。
最初にEvidence-Augmented Reasoningパラダイムを確立し、Tree-Structued Evidence Smplingを介して検証する。
次に、報酬モデルがグループ相対エビデンス・リワードを計算する特殊なRLアルゴリズムを導入する。
トレーニングを通して正確な監視を維持するため、適応的リワード・ポリティ共進化機構をさらに取り入れる。
論文 参考訳(メタデータ) (2026-01-15T11:40:57Z) - Coupled Variational Reinforcement Learning for Language Model General Reasoning [83.82392089177841]
変分推論と強化学習を橋渡しするために,textitbCoupled bVari bReinforcement bLearning (CoVRL)を提案する。
CoVRLはベースモデルよりも12.4%向上し、最先端の検証不要なRLベースラインよりも2.3%向上した。
論文 参考訳(メタデータ) (2025-12-14T07:03:51Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。