論文の概要: Reward Reasoning Model
- arxiv url: http://arxiv.org/abs/2505.14674v1
- Date: Tue, 20 May 2025 17:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.666402
- Title: Reward Reasoning Model
- Title(参考訳): Reward Reasoning Model
- Authors: Jiaxin Guo, Zewen Chi, Li Dong, Qingxiu Dong, Xun Wu, Shaohan Huang, Furu Wei,
- Abstract要約: Reward Reasoning Models (RRM) は、最終的な報酬を生成する前に意図的に推論プロセスを実行するように設計されている。
自己発展型報酬推論能力を育成する強化学習フレームワークを実装した。
特に、RTMはテスト時間計算を適応的に利用して報酬の精度をさらに向上させることができる。
- 参考スコア(独自算出の注目度): 104.39256985858428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models play a critical role in guiding large language models toward outputs that align with human expectations. However, an open challenge remains in effectively utilizing test-time compute to enhance reward model performance. In this work, we introduce Reward Reasoning Models (RRMs), which are specifically designed to execute a deliberate reasoning process before generating final rewards. Through chain-of-thought reasoning, RRMs leverage additional test-time compute for complex queries where appropriate rewards are not immediately apparent. To develop RRMs, we implement a reinforcement learning framework that fosters self-evolved reward reasoning capabilities without requiring explicit reasoning traces as training data. Experimental results demonstrate that RRMs achieve superior performance on reward modeling benchmarks across diverse domains. Notably, we show that RRMs can adaptively exploit test-time compute to further improve reward accuracy. The pretrained reward reasoning models are available at https://huggingface.co/Reward-Reasoning.
- Abstract(参考訳): リワードモデルは、人間の期待に沿うアウトプットに向けて、大きな言語モデルを導く上で重要な役割を担います。
しかし、報酬モデルの性能を高めるためにテスト時間計算を効果的に活用することには、未解決の課題が残っている。
本稿では、最終報酬を生成する前に、意図的な推論プロセスを実行するように設計されたReward Reasoning Models(RRMs)を紹介する。
RRMはチェーン・オブ・シークレットの推論を通じて、適切な報酬がすぐには明らかでない複雑なクエリに対して、追加のテスト時間計算を利用する。
RRMを開発するために、トレーニングデータとして明示的な推論トレースを必要とせず、自己進化型報酬推論能力を向上させる強化学習フレームワークを実装した。
実験により,RRMは様々な領域にわたる報酬モデルベンチマークにおいて優れた性能を発揮することが示された。
特に、RTMがテスト時間計算を適応的に活用し、報酬の精度をさらに向上させることができることを示す。
事前トレーニングされた報酬推論モデルはhttps://huggingface.co/Reward-Reasoning.comで入手できる。
関連論文リスト
- RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。
以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。
また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文 参考訳(メタデータ) (2023-11-10T01:35:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。