論文の概要: ReasonGRM: Enhancing Generative Reward Models through Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2506.16712v1
- Date: Fri, 20 Jun 2025 03:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.322606
- Title: ReasonGRM: Enhancing Generative Reward Models through Large Reasoning Models
- Title(参考訳): ReasonGRM:大規模推論モデルによる生成的リワードモデルの実現
- Authors: Bin Chen, Xinzge Gao, Chuanrui Hu, Penghang Yu, Hua Zhang, Bing-Kun Bao,
- Abstract要約: 本稿では,3段階生成報酬モデルフレームワークReasonGRMを紹介する。
第1段階では、ゼロRLは簡潔で結果指向の推論パスを生成するために使用される。
第2段階では、$Rstar$は、生成可能性に基づいて推論パスをスコアする。
最終段階では、モデルは強化学習によりさらに洗練され、好みの識別能力が向上する。
- 参考スコア(独自算出の注目度): 9.30148520355391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Reward Models (GRMs) provide greater flexibility than scalar reward models in capturing human preferences, but their effectiveness is limited by poor reasoning capabilities. This often results in incomplete or overly speculative reasoning paths, leading to hallucinations or missing key information in complex tasks. We address this challenge with ReasonGRM, a three-stage generative reward modeling framework. In the first stage, Zero-RL is used to generate concise, outcome-directed reasoning paths that reduce the likelihood of critical omissions. In the second stage, we introduce a novel evaluation metric, $R^\star$, which scores reasoning paths based on their generation likelihood. This favors paths that reach correct answers with minimal exploration, helping to reduce hallucination-prone data during training. In the final stage, the model is further refined through reinforcement learning on challenging examples to enhance its preference discrimination capabilities. Experiments on three public benchmarks show that ReasonGRM achieves competitive or state-of-the-art performance, outperforming previous best GRMs by 1.8\% on average and surpassing proprietary models such as GPT-4o by up to 5.6\%. These results demonstrate the effectiveness of reasoning-aware training and highlight the importance of high-quality rationale selection for reliable preference modeling.
- Abstract(参考訳): ジェネレーティブ・リワードモデル(GRM)は、人間の嗜好を捉えたスカラー報酬モデルよりも高い柔軟性を提供するが、それらの効果は推論能力の貧弱さによって制限される。
これはしばしば不完全または過度に投機的推論経路をもたらし、複雑なタスクにおいて幻覚や重要な情報が欠落する。
本稿では,3段階生成報酬モデルフレームワークReasonGRMでこの問題に対処する。
第1段階では、ゼロRLは簡潔で結果指向の推論経路を生成するために使われ、臨界欠落の可能性を減らす。
第2段階では,新たな評価基準である$R^\star$を導入する。
これは、最小限の探索で正しい答えに達する経路を好んでおり、訓練中に幻覚が引き起こすデータを減らすのに役立つ。
最終段階では、選好識別能力を高めるための挑戦的な事例の強化学習を通じて、モデルをさらに洗練する。
3つの公開ベンチマークの実験によると、ReasonGRMは競争力や最先端のパフォーマンスを達成し、従来の最高のGRMを平均1.8倍、GPT-4oのようなプロプライエタリなモデルを最大5.6倍上回っている。
これらの結果は、推論学習の有効性を示し、信頼性の高い嗜好モデルにおける高品質な理性選択の重要性を強調した。
関連論文リスト
- RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。