論文の概要: GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2506.16141v1
- Date: Thu, 19 Jun 2025 08:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.003438
- Title: GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning
- Title(参考訳): GRPO-CARE:マルチモーダル推論のための一貫性を考慮した強化学習
- Authors: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Junhao Cheng, Ying Shan, Xihui Liu,
- Abstract要約: 我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
- 参考スコア(独自算出の注目度): 53.894789613838654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent reinforcement learning approaches, such as outcome-supervised GRPO, have advanced Chain-of-Thought reasoning in large language models (LLMs), yet their adaptation to multimodal LLMs (MLLMs) is unexplored. To address the lack of rigorous evaluation for MLLM post-training methods, we introduce SEED-Bench-R1, a benchmark with complex real-world videos requiring balanced perception and reasoning. It offers a large training set and evaluates generalization across three escalating challenges: in-distribution, cross-environment, and cross-environment-task scenarios. Using SEED-Bench-R1, we find that standard GRPO, while improving answer accuracy, often reduces logical coherence between reasoning steps and answers, with only a 57.9% consistency rate. This stems from reward signals focusing solely on final answers, encouraging shortcuts, and strict KL penalties limiting exploration.To address this, we propose GRPO-CARE, a consistency-aware RL framework optimizing both answer correctness and reasoning coherence without explicit supervision. GRPO-CARE introduces a two-tiered reward: (1) a base reward for answer correctness, and (2) an adaptive consistency bonus, computed by comparing the model's reasoning-to-answer likelihood (via a slowly-evolving reference model) against group peers.This dual mechanism amplifies rewards for reasoning paths that are both correct and logically consistent. Replacing KL penalties with this adaptive bonus, GRPO-CARE outperforms standard GRPO on SEED-Bench-R1, achieving a 6.7% performance gain on the hardest evaluation level and a 24.5% improvement in consistency. It also shows strong transferability, improving model performance across diverse video understanding benchmarks. Our work contributes a systematically designed benchmark and a generalizable post-training framework, advancing the development of more interpretable and robust MLLMs.
- Abstract(参考訳): 近年の強化学習手法(GRPOなど)は,大規模言語モデル(LLM)におけるチェーン・オブ・ソート推論(Chain-of-Thought reasoning)が進んでいるが,MLLM(Multimodal LLM)への適応は未定である。
MLLMポストトレーニング手法の厳密な評価の欠如に対処するため,複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークSEED-Bench-R1を導入する。
大規模なトレーニングセットを提供し、分散性、環境横断性、環境横断性という3つの課題にまたがる一般化を評価する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
本研究の目的は,最終回答のみに焦点を絞った報酬信号,ショートカットの奨励,探索を制限する厳格なKL罰則に起因し,明確な監督なしに回答の正当性と整合性の両方を最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
GRPO-CARE では,(1) 正解に対する基本報酬,(2) 適応整合ボーナスを,(徐々に進化する参照モデルを介して) モデルの推論と答えの確率をグループピアと比較することにより計算し,その2つのメカニズムは,正解と論理的整合性の両方を持つ推論パスに対する報酬を増幅する。
GRPO-CAREは、この適応ボーナスでKLの罰則を置き換え、SEED-Bench-R1の標準GRPOよりも優れ、最も厳しい評価レベルで6.7%の性能向上と24.5%の一貫性の向上を実現している。
また、強力な転送可能性を示し、多様なビデオ理解ベンチマークでモデルパフォーマンスを改善している。
我々の研究は、体系的に設計されたベンチマークと一般化可能なポストトレーニングフレームワークに貢献し、より解釈可能で堅牢なMLLMの開発を進める。
関連論文リスト
- Multi-Layer GRPO: Enhancing Reasoning and Self-Correction in Large Language Models [3.0763741715155666]
我々は,MGRPO(Multi-layer GRPO)を提案する。
MGRPOは標準GRPOを著しく上回り、推論能力と自己補正能力の両方を育成することで優れた性能を達成する。
論文 参考訳(メタデータ) (2025-06-05T08:27:34Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。