論文の概要: ReasonGRM: Enhancing Generative Reward Models through Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2506.16712v1
- Date: Fri, 20 Jun 2025 03:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.322606
- Title: ReasonGRM: Enhancing Generative Reward Models through Large Reasoning Models
- Title(参考訳): ReasonGRM:大規模推論モデルによる生成的リワードモデルの実現
- Authors: Bin Chen, Xinzge Gao, Chuanrui Hu, Penghang Yu, Hua Zhang, Bing-Kun Bao,
- Abstract要約: 本稿では,3段階生成報酬モデルフレームワークReasonGRMを紹介する。
第1段階では、ゼロRLは簡潔で結果指向の推論パスを生成するために使用される。
第2段階では、$Rstar$は、生成可能性に基づいて推論パスをスコアする。
最終段階では、モデルは強化学習によりさらに洗練され、好みの識別能力が向上する。
- 参考スコア(独自算出の注目度): 9.30148520355391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Reward Models (GRMs) provide greater flexibility than scalar reward models in capturing human preferences, but their effectiveness is limited by poor reasoning capabilities. This often results in incomplete or overly speculative reasoning paths, leading to hallucinations or missing key information in complex tasks. We address this challenge with ReasonGRM, a three-stage generative reward modeling framework. In the first stage, Zero-RL is used to generate concise, outcome-directed reasoning paths that reduce the likelihood of critical omissions. In the second stage, we introduce a novel evaluation metric, $R^\star$, which scores reasoning paths based on their generation likelihood. This favors paths that reach correct answers with minimal exploration, helping to reduce hallucination-prone data during training. In the final stage, the model is further refined through reinforcement learning on challenging examples to enhance its preference discrimination capabilities. Experiments on three public benchmarks show that ReasonGRM achieves competitive or state-of-the-art performance, outperforming previous best GRMs by 1.8\% on average and surpassing proprietary models such as GPT-4o by up to 5.6\%. These results demonstrate the effectiveness of reasoning-aware training and highlight the importance of high-quality rationale selection for reliable preference modeling.
- Abstract(参考訳): ジェネレーティブ・リワードモデル(GRM)は、人間の嗜好を捉えたスカラー報酬モデルよりも高い柔軟性を提供するが、それらの効果は推論能力の貧弱さによって制限される。
これはしばしば不完全または過度に投機的推論経路をもたらし、複雑なタスクにおいて幻覚や重要な情報が欠落する。
本稿では,3段階生成報酬モデルフレームワークReasonGRMでこの問題に対処する。
第1段階では、ゼロRLは簡潔で結果指向の推論経路を生成するために使われ、臨界欠落の可能性を減らす。
第2段階では,新たな評価基準である$R^\star$を導入する。
これは、最小限の探索で正しい答えに達する経路を好んでおり、訓練中に幻覚が引き起こすデータを減らすのに役立つ。
最終段階では、選好識別能力を高めるための挑戦的な事例の強化学習を通じて、モデルをさらに洗練する。
3つの公開ベンチマークの実験によると、ReasonGRMは競争力や最先端のパフォーマンスを達成し、従来の最高のGRMを平均1.8倍、GPT-4oのようなプロプライエタリなモデルを最大5.6倍上回っている。
これらの結果は、推論学習の有効性を示し、信頼性の高い嗜好モデルにおける高品質な理性選択の重要性を強調した。
関連論文リスト
- ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning [12.83211408922535]
強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。
GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。
提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
論文 参考訳(メタデータ) (2025-07-03T17:44:55Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [56.32212611983997]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Reward Reasoning Model [104.39256985858428]
Reward Reasoning Models (RRM) は、最終的な報酬を生成する前に意図的に推論プロセスを実行するように設計されている。
自己発展型報酬推論能力を育成する強化学習フレームワークを実装した。
特に、RTMはテスト時間計算を適応的に利用して報酬の精度をさらに向上させることができる。
論文 参考訳(メタデータ) (2025-05-20T17:58:03Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Self-Enhanced Reasoning Training: Activating Latent Reasoning in Small Models for Enhanced Reasoning Distillation [34.48068572413349]
小型モデルでは, チェーン・オブ・シークレットがなくても, サンプリング中に高品質な推論経路を生成可能であることを示す。
小型モデルにおける潜在推論機能を活性化し活用する自己強化推論訓練(SERT)を提案する。
OpenAI の GPT-3.5 を教師モデルとして、GPT-2 モデルを学生モデルとして実験したところ、SERT が小モデルの推論能力を高めることが示されている。
論文 参考訳(メタデータ) (2025-02-18T11:02:47Z) - Self-Generated Critiques Boost Reward Modeling for Language Models [57.60881438647227]
Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。
実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
論文 参考訳(メタデータ) (2024-11-25T18:28:26Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。