論文の概要: SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.01713v1
- Date: Mon, 02 Jun 2025 14:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.763729
- Title: SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning
- Title(参考訳): SRPO:リフレクション・アウェア強化学習によるマルチモーダルLLM推論の強化
- Authors: Zhongwei Wan, Zhihao Dou, Che Liu, Yu Zhang, Dongfei Cui, Qinjian Zhao, Hui Shen, Jing Xiong, Yi Xin, Yifan Jiang, Yangfan He, Mi Zhang, Shen Yan,
- Abstract要約: MLLM(Multimodal large language model)は、タスク推論において有望な能力を示すが、明示的な自己回帰と自己補正を必要とする複雑な問題に悩まされている。
既存のリフレクション手法は単純で、意味のあるインストラクティブフィードバックを生成するのに苦労している。
本稿では,2段階のリフレクション対応強化学習フレームワークであるグループ相対ポリシー最適化 (SRPO) を用いたマルチモーダル自己回帰強化推論を提案する。
- 参考スコア(独自算出の注目度): 24.14562320755932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have shown promising capabilities in reasoning tasks, yet still struggle with complex problems requiring explicit self-reflection and self-correction, especially compared to their unimodal text-based counterparts. Existing reflection methods are simplistic and struggle to generate meaningful and instructive feedback, as the reasoning ability and knowledge limits of pre-trained models are largely fixed during initial training. To overcome these challenges, we propose Multimodal Self-Reflection enhanced reasoning with Group Relative Policy Optimization (SRPO), a two-stage reflection-aware reinforcement learning (RL) framework explicitly designed to enhance multimodal LLM reasoning. In the first stage, we construct a high-quality, reflection-focused dataset under the guidance of an advanced MLLM, which generates reflections based on initial responses to help the policy model learn both reasoning and self-reflection. In the second stage, we introduce a novel reward mechanism within the GRPO framework that encourages concise and cognitively meaningful reflection while avoiding redundancy. Extensive experiments across multiple multimodal reasoning benchmarks, including MathVista, MathVision, MathVerse, and MMMU-Pro, using Qwen-2.5-VL-7B and Qwen-2.5-VL-32B demonstrate that SRPO significantly outperforms state-of-the-art models, achieving notable improvements in both reasoning accuracy and reflection quality.
- Abstract(参考訳): MLLM(Multimodal large language model)は、タスクの推論において有望な能力を示すが、明示的な自己回帰と自己補正を必要とする複雑な問題に苦慮している。
既存のリフレクション法は単純であり、事前訓練されたモデルの推論能力と知識限界が初期訓練中にほとんど固定されているため、有意義でインストラクティブなフィードバックを生成するのに苦労している。
これらの課題を克服するために,多モードLPM推論の強化を目的とした2段階のリフレクション対応強化学習(RL)フレームワークであるグループ相対ポリシー最適化(SRPO)による多モード自己回帰強化推論を提案する。
最初の段階では、高度MLLMの指導のもと、高品質で反射に着目したデータセットを構築し、初期応答に基づく反射を生成し、ポリシーモデルが推論と自己回帰の両方を学ぶのを助ける。
第2段階では、冗長性を避けつつ、簡潔で認知的に意味のある反射を促進する新しい報酬メカニズムをGRPOフレームワーク内に導入する。
MathVista、MathVision、MathVerse、MMMU-Proといった複数のマルチモーダル推論ベンチマークにおいて、Qwen-2.5-VL-7BとQwen-2.5-VL-32Bを用いた大規模な実験では、SRPOが最先端モデルよりも優れており、推論精度と反射品質の両方において顕著な改善が達成されている。
関連論文リスト
- Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models [45.15161506154318]
MLLM(Multimodal large language model)は重要な課題である。
高品質なマルチモーダル推論データセットの不足。
視覚処理の統合による推論能力の低下。
強化学習が直接適用されるリスクは、複雑だが誤った推論プロセスを引き起こす可能性がある。
Infi-MMR-3Bは、最先端のマルチモーダル数学推論能力を実現する。
論文 参考訳(メタデータ) (2025-05-29T04:51:56Z) - Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Two Heads Are Better Than One: Dual-Model Verbal Reflection at Inference-Time [17.3254565018168]
大規模言語モデル(LLM)は複雑な推論シナリオに悩まされることが多い。
LLM生成反射の精度と深さを向上するコントラスト反射合成パイプラインを導入する。
本稿では,言語強化学習パラダイムにおける2モデル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-26T15:41:41Z) - Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。