論文の概要: SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward
- arxiv url: http://arxiv.org/abs/2505.17018v1
- Date: Thu, 22 May 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.563184
- Title: SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward
- Title(参考訳): SophiaVL-R1:シンキング・リワードによるMLLMの強化
- Authors: Kaixuan Fan, Kaituo Feng, Haoming Lyu, Dongzhan Zhou, Xiangyu Yue,
- Abstract要約: 本稿では,SophiaVL-R1を提案する。
そこで我々はまず,思考プロセス全体の品質を評価する思考報酬モデルを訓練する。
実験の結果、SophiaVL-R1は様々なベンチマークでMLLMを上回りました。
- 参考スコア(独自算出の注目度): 9.717022695892137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances have shown success in eliciting strong reasoning abilities in multimodal large language models (MLLMs) through rule-based reinforcement learning (RL) with outcome rewards. However, this paradigm typically lacks supervision over the thinking process leading to the final outcome.As a result, the model may learn sub-optimal reasoning strategies, which can hinder its generalization ability. In light of this, we propose SophiaVL-R1, as an attempt to add reward signals for the thinking process in this paradigm. To achieve this, we first train a thinking reward model that evaluates the quality of the entire thinking process. Given that the thinking reward may be unreliable for certain samples due to reward hacking, we propose the Trust-GRPO method, which assigns a trustworthiness weight to the thinking reward during training. This weight is computed based on the thinking reward comparison of responses leading to correct answers versus incorrect answers, helping to mitigate the impact of potentially unreliable thinking rewards. Moreover, we design an annealing training strategy that gradually reduces the thinking reward over time, allowing the model to rely more on the accurate rule-based outcome reward in later training stages. Experiments show that our SophiaVL-R1 surpasses a series of reasoning MLLMs on various benchmarks (e.g., MathVisita, MMMU), demonstrating strong reasoning and generalization capabilities. Notably, our SophiaVL-R1-7B even outperforms LLaVA-OneVision-72B on most benchmarks, despite the latter having 10 times more parameters. All code, models, and datasets are made publicly available at https://github.com/kxfan2002/SophiaVL-R1.
- Abstract(参考訳): 近年,Multimodal Large Language Model (MLLM) において,ルールベース強化学習 (RL) による推論能力の獲得が成功している。
しかし、このパラダイムは、最終的な結果につながる思考過程の監督を欠いているため、モデルが最適下推論戦略を学習し、その一般化能力を阻害する可能性がある。
そこで我々は,このパラダイムにおける思考プロセスに報酬信号を加える試みとして,SophiaVL-R1を提案する。
そこで我々はまず,思考プロセス全体の品質を評価する思考報酬モデルを訓練する。
学習中の思考報酬に信頼度重みを割り当てるTrust-GRPO法を提案する。
この重みは、正しい答えと間違った答えをもたらす反応の思考報酬比較に基づいて計算され、潜在的に信頼できない思考報酬の影響を軽減するのに役立つ。
さらに、時間とともに思考報酬を徐々に減少させ、モデルが後続の訓練段階における正確なルールベースの成果報酬により依存できるように、アニーリングトレーニング戦略を設計する。
実験の結果、SophiaVL-R1は様々なベンチマーク(例えば、MathVisita、MMMU)でMLLMを突破し、強力な推論と一般化能力を示した。
私たちのSophiaVL-R1-7Bは、ほとんどのベンチマークでLLaVA-OneVision-72Bよりも優れています。
すべてのコード、モデル、データセットはhttps://github.com/kxfan2002/SophiaVL-R1で公開されている。
関連論文リスト
- Residual Reward Models for Preference-based Reinforcement Learning [11.797520525358564]
優先度に基づく強化学習(PbRL)は、報酬信号の特定が難しい環境で、高性能なポリシーを学習する方法を提供する。
PbRLは報酬モデルでのトレーニングを必要とするため、収束速度が遅い。
本稿では,Residual Reward Model (RRM) を用いた事前知識の有効活用手法を提案する。
論文 参考訳(メタデータ) (2025-07-01T09:43:57Z) - Generalist Reward Models: Found Inside Large Language Models [50.7432354447554]
我々は,従来の次世代予測によって訓練されたLarge Language Models (LLM) の中に,強力な報酬モデルが存在することを示す。
この内因性報酬は、オフライン逆強化学習によって学習された報酬関数ではないことを実証する。
また、この内因性報酬を用いた後続の強化学習が、ベースモデルと比較して明らかに優れたエラー境界を持つポリシーにつながることを証明した。
論文 参考訳(メタデータ) (2025-06-29T13:45:54Z) - Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective [6.069069082518759]
大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。
反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。
我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:31Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [45.33952788910874]
TONは視覚言語モデルの2段階のトレーニング戦略である。
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
我々は(蒸留に頼らずに)強化学習による視覚言語モデルの遅い思考能力の向上を目指す。
我々は、RLトレーニングにおけるロールアウトの最後に再考トリガートークンを付加し、自己回帰推論ステップを明示的に実施する強制再考(Forced Rethinking)を導入する。
我々のモデルであるVL-Rethinkerは、MathVista、MathVerseの最先端スコアを80.4%、63.5%に向上させています。
論文 参考訳(メタデータ) (2025-04-10T17:41:56Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。