論文の概要: RMGAP: Benchmarking the Generalization of Reward Models across Diverse Preferences
- arxiv url: http://arxiv.org/abs/2605.01831v1
- Date: Sun, 03 May 2026 11:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.955734
- Title: RMGAP: Benchmarking the Generalization of Reward Models across Diverse Preferences
- Title(参考訳): RMGAP: 異種選好におけるリワードモデルの一般化のベンチマーク
- Authors: Yangyang Zhou, Yi-Chen Li,
- Abstract要約: この研究は、報酬モデルの一般化可能性を評価する方法に焦点を当てている。
RMGAPは、Chat、Writeing、Reasoning、Safetyドメインにわたる1,097のインスタンスからなるベンチマークである。
最高のRMでさえ49.27%の精度しか達成せず、報酬モデル一般化のかなりの改善の余地が浮かび上がっている。
- 参考スコア(独自算出の注目度): 3.498051445282382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback has become the standard paradigm for language model alignment, where reward models directly determine alignment effectiveness. In this work, we focus on how to evaluate the generalizability of reward models. By "generalizability", we mean the ability of RMs to correctly rank responses to align with diverse user preferences. However, existing reward model benchmarks are typically designed around a universal preference, failing to assess this generalization. To address this critical gap, we introduce RMGAP, a benchmark comprising 1,097 instances across Chat, Writing, Reasoning, and Safety domains. Since different users exhibit diverse preferences for the same task, we first generate four distinct responses with different linguistic profiles for each collected prompt. However, the original prompt set lacks the specificity to convey different preferences. We therefore construct tailored prompts by contrasting these candidates and designing scenarios in which one response becomes the uniquely appropriate choice. Moreover, we observe that users often express the same preference using different phrasings, and thus extend each prompt with two paraphrased variants. Our evaluation of 24 state-of-the-art RMs reveals their substantial limitations: even the best RM achieves only 49.27% Best-of-N accuracy, highlighting considerable room for improvement in reward model generalization. Related data and code are available at https://github.com/nanzhi84/RMGAP.
- Abstract(参考訳): ヒューマンフィードバックからの強化学習は、報酬モデルがアライメントの有効性を直接決定する言語モデルアライメントの標準パラダイムとなっている。
本研究では,報酬モデルの一般化可能性を評価することに焦点を当てる。
汎用性」とは、RMが応答を正しくランク付けし、多様なユーザの好みに合わせる能力である。
しかし、既存の報酬モデルベンチマークは一般に普遍的な選好に基づいて設計されており、この一般化を評価できない。
この重要なギャップに対処するために、チャット、書き込み、推論、安全ドメインにわたる1,097のインスタンスからなるベンチマークであるRMGAPを紹介します。
異なるユーザが同じタスクに対して様々な好みを示すので、まず、収集された各プロンプトに対して異なる言語プロファイルを持つ4つの異なる応答を生成する。
しかし、オリジナルのプロンプトセットは、異なる好みを伝えるための特異性に欠けていた。
したがって、これらの候補を対比し、一つの応答が一意に適切な選択となるようなシナリオを設計することで、調整されたプロンプトを構築する。
さらに,ユーザは異なる言い回しを使って同じ好みを表現し,それぞれのプロンプトを2つの言い換え型で拡張する。
最高のRMでさえ、49.27%の精度しか達成できず、報酬モデル一般化のかなりの改善の余地が浮かび上がっている。
関連するデータとコードはhttps://github.com/nanzhi84/RMGAP.comで公開されている。
関連論文リスト
- No Single Best Model for Diversity: Learning a Router for Sample Diversity [69.53166985556759]
本稿では,有効な応答の集合を包括的に抽出する手法について検討する。
本稿では,各回答に割り当てられた品質スコアを計測する指標であるtextbfdiversity Cover を紹介する。
各プロンプトには、多様な回答セットを生成する際に、他のすべてのモデルよりも大幅に優れるモデルが存在する。
論文 参考訳(メタデータ) (2026-04-02T17:58:37Z) - P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling [66.55381105691818]
P-GenRM(Personalized Generative Reward Model)を提案する。
P-GenRMは、選好信号を適応的なペルソナとスコアリングルーリックを導出する構造化評価チェーンに変換する。
さらにユーザをユーザプロトタイプにクラスタリングし、二重粒度スケーリングメカニズムを導入している。
論文 参考訳(メタデータ) (2026-02-12T16:07:22Z) - Robust Preference Alignment via Directional Neighborhood Consensus [13.313830197011983]
本稿では,指向性近傍のコンセンサスを利用したポストホックなトレーニングフリー手法であるRobust Preference Selection(RPS)を紹介する。
RPSは、関連する好みの地域からの複数の応答をサンプリングし、優れた候補プールを作成する。
本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:39:20Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Data-adaptive Safety Rules for Training Reward Models [9.172858508920696]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、人間の好みに合わせてモデルを調整するために一般的に用いられる。
本稿では,各応答対について最も重要なルールを適応的に選択する動的手法を提案する。
2025年1月25日現在、我々のモデルはリーダーボード上で最高の安全性能を達成し、様々な大型モデルを上回っている。
論文 参考訳(メタデータ) (2025-01-26T08:49:46Z) - Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:35:46Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。