論文の概要: SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward
- arxiv url: http://arxiv.org/abs/2505.17018v1
- Date: Thu, 22 May 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.563184
- Title: SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward
- Title(参考訳): SophiaVL-R1:シンキング・リワードによるMLLMの強化
- Authors: Kaixuan Fan, Kaituo Feng, Haoming Lyu, Dongzhan Zhou, Xiangyu Yue,
- Abstract要約: 本稿では,SophiaVL-R1を提案する。
そこで我々はまず,思考プロセス全体の品質を評価する思考報酬モデルを訓練する。
実験の結果、SophiaVL-R1は様々なベンチマークでMLLMを上回りました。
- 参考スコア(独自算出の注目度): 9.717022695892137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances have shown success in eliciting strong reasoning abilities in multimodal large language models (MLLMs) through rule-based reinforcement learning (RL) with outcome rewards. However, this paradigm typically lacks supervision over the thinking process leading to the final outcome.As a result, the model may learn sub-optimal reasoning strategies, which can hinder its generalization ability. In light of this, we propose SophiaVL-R1, as an attempt to add reward signals for the thinking process in this paradigm. To achieve this, we first train a thinking reward model that evaluates the quality of the entire thinking process. Given that the thinking reward may be unreliable for certain samples due to reward hacking, we propose the Trust-GRPO method, which assigns a trustworthiness weight to the thinking reward during training. This weight is computed based on the thinking reward comparison of responses leading to correct answers versus incorrect answers, helping to mitigate the impact of potentially unreliable thinking rewards. Moreover, we design an annealing training strategy that gradually reduces the thinking reward over time, allowing the model to rely more on the accurate rule-based outcome reward in later training stages. Experiments show that our SophiaVL-R1 surpasses a series of reasoning MLLMs on various benchmarks (e.g., MathVisita, MMMU), demonstrating strong reasoning and generalization capabilities. Notably, our SophiaVL-R1-7B even outperforms LLaVA-OneVision-72B on most benchmarks, despite the latter having 10 times more parameters. All code, models, and datasets are made publicly available at https://github.com/kxfan2002/SophiaVL-R1.
- Abstract(参考訳): 近年,Multimodal Large Language Model (MLLM) において,ルールベース強化学習 (RL) による推論能力の獲得が成功している。
しかし、このパラダイムは、最終的な結果につながる思考過程の監督を欠いているため、モデルが最適下推論戦略を学習し、その一般化能力を阻害する可能性がある。
そこで我々は,このパラダイムにおける思考プロセスに報酬信号を加える試みとして,SophiaVL-R1を提案する。
そこで我々はまず,思考プロセス全体の品質を評価する思考報酬モデルを訓練する。
学習中の思考報酬に信頼度重みを割り当てるTrust-GRPO法を提案する。
この重みは、正しい答えと間違った答えをもたらす反応の思考報酬比較に基づいて計算され、潜在的に信頼できない思考報酬の影響を軽減するのに役立つ。
さらに、時間とともに思考報酬を徐々に減少させ、モデルが後続の訓練段階における正確なルールベースの成果報酬により依存できるように、アニーリングトレーニング戦略を設計する。
実験の結果、SophiaVL-R1は様々なベンチマーク(例えば、MathVisita、MMMU)でMLLMを突破し、強力な推論と一般化能力を示した。
私たちのSophiaVL-R1-7Bは、ほとんどのベンチマークでLLaVA-OneVision-72Bよりも優れています。
すべてのコード、モデル、データセットはhttps://github.com/kxfan2002/SophiaVL-R1で公開されている。
関連論文リスト
- Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [45.33952788910874]
TONは視覚言語モデルの2段階のトレーニング戦略である。
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
我々は(蒸留に頼らずに)強化学習による視覚言語モデルの遅い思考能力の向上を目指す。
我々は、RLトレーニングにおけるロールアウトの最後に再考トリガートークンを付加し、自己回帰推論ステップを明示的に実施する強制再考(Forced Rethinking)を導入する。
我々のモデルであるVL-Rethinkerは、MathVista、MathVerseの最先端スコアを80.4%、63.5%に向上させています。
論文 参考訳(メタデータ) (2025-04-10T17:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。