論文の概要: R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.02835v1
- Date: Mon, 05 May 2025 17:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.768414
- Title: R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning
- Title(参考訳): R1-Reward:安定強化学習によるマルチモーダル・リワードモデルのトレーニング
- Authors: Yi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang,
- Abstract要約: マルチモーダル・リワードモデル(MRM)は、マルチモーダル大言語モデル(MLLM)の性能向上に重要な役割を果たす。
本稿では,既存のRL手法のトレーニング損失,利点推定戦略,報酬設計を改良したStableReinforceアルゴリズムを提案する。
我々の報酬モデルであるR1-Rewardは、このデータセット上でStableReinforceアルゴリズムを使用してトレーニングされ、マルチモーダル報酬モデリングベンチマークのパフォーマンスが大幅に向上する。
- 参考スコア(独自算出の注目度): 22.167272219418845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Reward Models (MRMs) play a crucial role in enhancing the performance of Multimodal Large Language Models (MLLMs). While recent advancements have primarily focused on improving the model structure and training data of MRMs, there has been limited exploration into the effectiveness of long-term reasoning capabilities for reward modeling and how to activate these capabilities in MRMs. In this paper, we explore how Reinforcement Learning (RL) can be used to improve reward modeling. Specifically, we reformulate the reward modeling problem as a rule-based RL task. However, we observe that directly applying existing RL algorithms, such as Reinforce++, to reward modeling often leads to training instability or even collapse due to the inherent limitations of these algorithms. To address this issue, we propose the StableReinforce algorithm, which refines the training loss, advantage estimation strategy, and reward design of existing RL methods. These refinements result in more stable training dynamics and superior performance. To facilitate MRM training, we collect 200K preference data from diverse datasets. Our reward model, R1-Reward, trained using the StableReinforce algorithm on this dataset, significantly improves performance on multimodal reward modeling benchmarks. Compared to previous SOTA models, R1-Reward achieves a $8.4\%$ improvement on the VL Reward-Bench and a $14.3\%$ improvement on the Multimodal Reward Bench. Moreover, with more inference compute, R1-Reward's performance is further enhanced, highlighting the potential of RL algorithms in optimizing MRMs.
- Abstract(参考訳): マルチモーダル・リワードモデル(MRM)は,MLLM(Multimodal Large Language Models)の性能向上に重要な役割を果たす。
近年の進歩は, MRMのモデル構造とトレーニングデータの改善に主眼を置いているが, 報酬モデリングにおける長期推論能力の有効性や, MRMにおけるこれらの能力の活性化方法については, 限定的な検討がなされている。
本稿では,Reinforcement Learning (RL) を用いて報酬モデリングを改善する方法について検討する。
具体的には、報酬モデリング問題をルールベースのRLタスクとして再構成する。
しかし、Reinforce++のような既存のRLアルゴリズムを直接適用することで、トレーニングの不安定性や、アルゴリズム固有の制限のため、しばしば崩壊する。
この問題に対処するため,既存のRL手法のトレーニング損失,利点推定戦略,報酬設計を改良したStableReinforceアルゴリズムを提案する。
これらの改善は、より安定したトレーニングダイナミクスと優れたパフォーマンスをもたらす。
MRMトレーニングを容易にするために、多様なデータセットから200Kの好みデータを収集する。
我々の報酬モデルであるR1-Rewardは、このデータセット上でStableReinforceアルゴリズムを用いてトレーニングされ、マルチモーダル報酬モデリングベンチマークのパフォーマンスが大幅に向上する。
以前のSOTAモデルと比較して、R1-RewardはVL Reward-Benchで8.4\%、Multimodal Reward Benchで14.3\%改善した。
さらに、より推論計算により、R1-Rewardのパフォーマンスはさらに向上し、MRMを最適化するRLアルゴリズムの可能性を強調している。
関連論文リスト
- RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reward Reasoning Models (ReasRMs) を新たに導入する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
本モデルでは,複数のベンチマークにおいて,生成型RMの最先端あるいは近近性能を実現する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Adversarial Training of Reward Models [74.17196154247964]
本稿では,対戦型学習フレームワークAdv-RMについて紹介する。
強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。
本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-08T15:38:25Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。
チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。
埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文 参考訳(メタデータ) (2025-02-04T19:37:35Z) - On Designing Effective RL Reward at Training Time for LLM Reasoning [14.006845442313134]
我々は,Reward Model(ORM)やProcess-supervised Reward Model(PRM)など,RLトレーニングの一般的な報酬モデルを評価する。
驚くべきことに、これらの学習された報酬モデルは推論時のパフォーマンスが強いにもかかわらず、RLトレーニングを助けたり、傷つけたりしないかもしれない。
Clipping と Delta の2つの新しい報酬改善手法を紹介した。
論文 参考訳(メタデータ) (2024-10-19T13:53:50Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。
以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。
また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文 参考訳(メタデータ) (2023-11-10T01:35:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。