論文の概要: RM-R1: Reward Modeling as Reasoning
- arxiv url: http://arxiv.org/abs/2505.02387v1
- Date: Mon, 05 May 2025 06:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.571349
- Title: RM-R1: Reward Modeling as Reasoning
- Title(参考訳): RM-R1:Reward Modeling as Reasoning
- Authors: Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji,
- Abstract要約: Reward Reasoning Models (ReasRMs) を新たに導入する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
本モデルでは,複数のベンチマークにおいて,生成型RMの最先端あるいは近近性能を実現する。
- 参考スコア(独自算出の注目度): 81.50471199906738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward modeling is essential for aligning large language models (LLMs) with human preferences, especially through reinforcement learning from human feedback (RLHF). To provide accurate reward signals, a reward model (RM) should stimulate deep thinking and conduct interpretable reasoning before assigning a score or a judgment. However, existing RMs either produce opaque scalar scores or directly generate the prediction of a preferred answer, making them struggle to integrate natural language critiques, thus lacking interpretability. Inspired by recent advances of long chain-of-thought (CoT) on reasoning-intensive tasks, we hypothesize and validate that integrating reasoning capabilities into reward modeling significantly enhances RM's interpretability and performance. In this work, we introduce a new class of generative reward models -- Reasoning Reward Models (ReasRMs) -- which formulate reward modeling as a reasoning task. We propose a reasoning-oriented training pipeline and train a family of ReasRMs, RM-R1. The training consists of two key stages: (1) distillation of high-quality reasoning chains and (2) reinforcement learning with verifiable rewards. RM-R1 improves LLM rollouts by self-generating reasoning traces or chat-specific rubrics and evaluating candidate responses against them. Empirically, our models achieve state-of-the-art or near state-of-the-art performance of generative RMs across multiple comprehensive reward model benchmarks, outperforming much larger open-weight models (e.g., Llama3.1-405B) and proprietary ones (e.g., GPT-4o) by up to 13.8%. Beyond final performance, we perform thorough empirical analysis to understand the key ingredients of successful ReasRM training. To facilitate future research, we release six ReasRM models along with code and data at https://github.com/RM-R1-UIUC/RM-R1.
- Abstract(参考訳): リワードモデリングは大きな言語モデル(LLM)を人間の好みに合わせるために不可欠であり、特に人間からのフィードバックからの強化学習(RLHF)によって行われる。
スコアや判断を割り当てる前に、深い思考を刺激し、解釈可能な推論を行うための正確な報酬信号を提供する。
しかし、既存のRMは不透明なスカラースコアを生成するか、好まれる回答の予測を直接生成し、自然言語の批判を統合するのに苦労し、解釈性に欠ける。
推論集約的なタスクにおける長い連鎖(CoT)の最近の進歩に触発されて、推論能力を報酬モデルに組み込むことでRMの解釈可能性と性能が著しく向上する、という仮説と検証を行った。
本稿では,報酬モデル(Reasoning Reward Models (ReasRMs))の新たなクラスを導入する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
トレーニングは,(1)高品質な推論連鎖の蒸留と(2)検証可能な報酬を伴う強化学習の2つの重要な段階から構成される。
RM-R1は、推論トレースやチャット固有のルーリックを自己生成してLLMロールアウトを改善し、それらに対する候補応答を評価する。
実験では、複数の包括的報酬モデルベンチマークで生成RMの最先端または最先端に近い性能を達成し、より大きなオープンウェイトモデル(例えば、Llama3.1-405B)とプロプライエタリモデル(例えば、GPT-4o)を最大13.8%上回った。
最終成績の他に、我々はReasRMトレーニングの成功の鍵となる要素を理解するために、徹底的な経験分析を行う。
将来の研究を促進するため、6つのReasRMモデルとコードとデータをhttps://github.com/RM-R1-UIUC/RM-R1でリリースします。
関連論文リスト
- R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning [22.167272219418845]
マルチモーダル・リワードモデル(MRM)は、マルチモーダル大言語モデル(MLLM)の性能向上に重要な役割を果たす。
本稿では,既存のRL手法のトレーニング損失,利点推定戦略,報酬設計を改良したStableReinforceアルゴリズムを提案する。
我々の報酬モデルであるR1-Rewardは、このデータセット上でStableReinforceアルゴリズムを使用してトレーニングされ、マルチモーダル報酬モデリングベンチマークのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2025-05-05T17:59:50Z) - Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文 参考訳(メタデータ) (2025-02-20T14:57:14Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。
我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文 参考訳(メタデータ) (2024-06-18T17:58:28Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。
以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。
また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文 参考訳(メタデータ) (2023-11-10T01:35:51Z) - The Trickle-down Impact of Reward (In-)consistency on RLHF [71.37987812944971]
報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。
RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。
より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
論文 参考訳(メタデータ) (2023-09-28T04:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。