論文の概要: Reward Modeling from Natural Language Human Feedback
- arxiv url: http://arxiv.org/abs/2601.07349v1
- Date: Mon, 12 Jan 2026 09:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.311552
- Title: Reward Modeling from Natural Language Human Feedback
- Title(参考訳): 自然言語からのリワードモデリング
- Authors: Zongqi Wang, Rui Wang, Yuchuan Wu, Yiyao Yu, Pinyi Zhang, Shaoning Sun, Yujiu Yang, Yongbin Li,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable reward)は、GAM(Generative Reward Models)のトレーニングにおいて、プライオリティデータに対する強化学習が主流となっている。
本稿では,このような二項分類タスクにより,音質批判を伴わない正しい結果の推測が可能であることを実証する。
本稿では、自然言語フィードバックを利用してプロセス報酬信号を得る自然言語ヒューマンフィードバック(RM-NLHF)からのリワードモデリングを提案する。
- 参考スコア(独自算出の注目度): 77.75758630455357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable reward (RLVR) on preference data has become the mainstream approach for training Generative Reward Models (GRMs). Typically in pairwise rewarding tasks, GRMs generate reasoning chains ending with critiques and preference labels, and RLVR then relies on the correctness of the preference labels as the training reward. However, in this paper, we demonstrate that such binary classification tasks make GRMs susceptible to guessing correct outcomes without sound critiques. Consequently, these spurious successes introduce substantial noise into the reward signal, thereby impairing the effectiveness of reinforcement learning. To address this issue, we propose Reward Modeling from Natural Language Human Feedback (RM-NLHF), which leverages natural language feedback to obtain process reward signals, thereby mitigating the problem of limited solution space inherent in binary tasks. Specifically, we compute the similarity between GRM-generated and human critiques as the training reward, which provides more accurate reward signals than outcome-only supervision. Additionally, considering that human critiques are difficult to scale up, we introduce Meta Reward Model (MetaRM) which learns to predict process reward from datasets with human critiques and then generalizes to data without human critiques. Experiments on multiple benchmarks demonstrate that our method consistently outperforms state-of-the-art GRMs trained with outcome-only reward, confirming the superiority of integrating natural language over binary human feedback as supervision.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable reward)は、GAM(Generative Reward Models)のトレーニングにおいて、プライオリティデータに対する強化学習(Reinforcement Learning)が主流となっている。
通常、ペアワイズ報酬タスクでは、GRMは批評と選好ラベルで終わる推論チェーンを生成し、RLVRはトレーニング報酬として選好ラベルの正しさに依存する。
しかし,本稿では,このような二項分類タスクが,音質批判を伴わずに正しい結果の推測をしにくいことを実証する。
その結果、これらの急激な成功は報奨信号にかなりのノイズをもたらし、強化学習の有効性を損なうことになる。
この問題を解決するために,自然言語フィードバックを利用してプロセス報酬信号を得るReward Modeling from Natural Language Human Feedback (RM-NLHF)を提案する。
具体的には、GRM生成と人間の批評の類似性をトレーニング報酬として計算し、結果のみの監視よりも正確な報酬信号を提供する。
さらに,人的批判のスケールアップが難しいことを踏まえ,人的批判を伴うデータセットからプロセス報酬を予測するメタリワードモデル(MetaRM)を導入し,人的批判のないデータに一般化する。
複数のベンチマークで実験したところ、我々の手法は結果のみの報酬で訓練された最先端のGEMよりも一貫して優れており、二進的な人間のフィードバックよりも自然言語を統合する方が優れていることが確認された。
関連論文リスト
- OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment [38.1645520104553]
OpenRubricsは,ルーブリック世代とルーブリックベースの報酬モデルをトレーニングするための,大規模な(プロンプト,エクスプリシット)ペアのコレクションである。
識別的・包括的評価信号を引き出すために,優先的・拒否的な応答を対比することにより,厳格な規則(単純質)と原則(簡易品質)の両方を導出するコントラスト生成(CRG)を導入する。
この結果から,ごみは費用対人評価と自動報酬モデリングのギャップを狭めるような,スケーラブルなアライメント信号を提供することがわかった。
論文 参考訳(メタデータ) (2025-10-09T03:31:26Z) - Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。
トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。
新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:19:04Z) - Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models [50.4652276723694]
Think-RMは、高度な機能をサポートするフレキシブルで自己誘導的な推論トレースを生成する。
Think-RM は RM-Bench 上で最先端の結果を達成し,BT RM と GenRM の垂直スケールを8% 上回った。
論文 参考訳(メタデータ) (2025-05-22T05:56:11Z) - Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment [35.80989342492335]
人間のフィードバックのノイズの多い好みは 報酬の一般化に繋がる
本研究の目的は,報酬モデルにおいて,騒音の嗜好が人間の嗜好とどのように異なるかを明らかにすることである。
我々は、堅牢な選好学習を実現するためのオンラインコラボレーション・リワード・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T10:58:20Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。