Fugu-MT 論文翻訳(概要): RM-R1: Reward Modeling as Reasoning

論文の概要: RM-R1: Reward Modeling as Reasoning

arxiv url: http://arxiv.org/abs/2505.02387v2
Date: Thu, 15 May 2025 04:14:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 14:06:36.546461
Title: RM-R1: Reward Modeling as Reasoning
Title（参考訳）: RM-R1:Reward Modeling as Reasoning
Authors: Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji,
Abstract要約: Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 81.50471199906738
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reward modeling is essential for aligning large language models (LLMs) with human preferences through reinforcement learning (RL). To provide accurate reward signals, a reward model (RM) should stimulate deep thinking and conduct interpretable reasoning before assigning a score or a judgment. Inspired by recent advances of long chain-of-thought (CoT) on reasoning-intensive tasks, we hypothesize and validate that integrating reasoning capabilities into reward modeling significantly enhances RM's interpretability and performance. To this end, we introduce a new class of generative reward models -- Reasoning Reward Models (ReasRMs) -- which formulate reward modeling as a reasoning task. We propose a reasoning-oriented training pipeline and train a family of ReasRMs, RM-R1. RM-R1 features a chain-of-rubrics (CoR) mechanism -- self-generating sample-level chat rubrics or math/code solutions, and evaluating candidate responses against them. The training of M-R1 consists of two key stages: (1) distillation of high-quality reasoning chains and (2) reinforcement learning with verifiable rewards. Empirically, our models achieve state-of-the-art performance across three reward model benchmarks on average, outperforming much larger open-weight models (e.g., INF-ORM-Llama3.1-70B) and proprietary ones (e.g., GPT-4o) by up to 4.9%. Beyond final performance, we perform thorough empirical analysis to understand the key ingredients of successful ReasRM training. To facilitate future research, we release six ReasRM models along with code and data at https://github.com/RM-R1-UIUC/RM-R1.
Abstract（参考訳）: リワードモデリングは、強化学習(RL)を通して、大規模言語モデル(LLM)と人間の嗜好の整合に不可欠である。スコアや判断を割り当てる前に、深い思考を刺激し、解釈可能な推論を行うための正確な報酬信号を提供する。推論集約的なタスクにおける長い連鎖(CoT)の最近の進歩に触発されて、推論能力を報酬モデルに組み込むことでRMの解釈可能性と性能が著しく向上する、という仮説と検証を行った。この目的のために、我々は新しい生成的報酬モデル、Reasoning Reward Models (ReasRMs)を導入し、推論タスクとして報酬モデリングを定式化する。我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。 RM-R1は、自己生成型のサンプルレベルのチャットルーブリックまたは数学/コードソリューションと、それらに対する候補応答の評価という、Rubrics(CoR)メカニズムを備えている。 M-R1の訓練は、(1)高品質な推論鎖の蒸留と(2)検証可能な報酬を伴う強化学習の2つの主要な段階からなる。実験的に、我々のモデルは平均3つの報酬モデルベンチマークで最先端のパフォーマンスを達成し、より大きなオープンウェイトモデル(INF-ORM-Llama3.1-70B)とプロプライエタリモデル(例えば、GPT-4o)を最大4.9%上回った。最終成績の他に、我々はReasRMトレーニングの成功の鍵となる要素を理解するために、徹底的な経験分析を行う。将来の研究を促進するため、6つのReasRMモデルとコードとデータをhttps://github.com/RM-R1-UIUC/RM-R1でリリースします。

関連論文リスト

ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [56.32212611983997]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。 ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文参考訳（メタデータ） (2025-06-23T17:59:02Z)
ReasonGRM: Enhancing Generative Reward Models through Large Reasoning Models [9.30148520355391]
本稿では,3段階生成報酬モデルフレームワークReasonGRMを紹介する。第1段階では、ゼロRLは簡潔で結果指向の推論パスを生成するために使用される。第2段階では、$Rstar$は、生成可能性に基づいて推論パスをスコアする。最終段階では、モデルは強化学習によりさらに洗練され、好みの識別能力が向上する。
論文参考訳（メタデータ） (2025-06-20T03:10:52Z)
Reward Reasoning Model [104.39256985858428]
Reward Reasoning Models (RRM) は、最終的な報酬を生成する前に意図的に推論プロセスを実行するように設計されている。自己発展型報酬推論能力を育成する強化学習フレームワークを実装した。特に、RTMはテスト時間計算を適応的に利用して報酬の精度をさらに向上させることができる。
論文参考訳（メタデータ） (2025-05-20T17:58:03Z)
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning [22.167272219418845]
マルチモーダル・リワードモデル(MRM)は、マルチモーダル大言語モデル(MLLM)の性能向上に重要な役割を果たす。本稿では,既存のRL手法のトレーニング損失,利点推定戦略,報酬設計を改良したStableReinforceアルゴリズムを提案する。我々の報酬モデルであるR1-Rewardは、このデータセット上でStableReinforceアルゴリズムを使用してトレーニングされ、マルチモーダル報酬モデリングベンチマークのパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2025-05-05T17:59:50Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。問題文の削除は報酬のスコアに最小限の影響を与える。数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文参考訳（メタデータ） (2025-02-20T14:57:14Z)
RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文参考訳（メタデータ） (2024-09-20T01:46:07Z)
Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文参考訳（メタデータ） (2024-06-18T17:58:28Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文参考訳（メタデータ） (2023-11-10T01:35:51Z)
The Trickle-down Impact of Reward (In-)consistency on RLHF [71.37987812944971]
報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。 RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
論文参考訳（メタデータ） (2023-09-28T04:05:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。