論文の概要: Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization
- arxiv url: http://arxiv.org/abs/2604.07343v1
- Date: Wed, 08 Apr 2026 17:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.670188
- Title: Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization
- Title(参考訳): パーソナライズされたRewardBench: パーソナライズされたパーソナライズによるリワードモデルの評価
- Authors: Qiyao Ma, Dechen Gao, Rui Cai, Boqi Zhao, Hanchu Zhou, Junshan Zhang, Zhe Zhao,
- Abstract要約: パーソナライズド・リワードベンチ(Personalized RewardBench)は、パーソナライズされた好みをモデル化するための報酬モデルの能力を厳格に評価する新しいベンチマークである。
選択された応答対と拒否された応答対は、ユーザ固有のルーリックへの厳密な固執(または違反)に基づいて構成し、好みの区別が個人ごとに一意に調整されていることを保証します。
本ベンチマークでは,既存のベースラインと比較して,Best-of-N(BoN)サンプリングとPPO(Porximal Policy Optimization)の両方において,ダウンストリーム性能と有意に高い相関関係を示した。
- 参考スコア(独自算出の注目度): 12.964518425036168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pluralistic alignment has emerged as a critical frontier in the development of Large Language Models (LLMs), with reward models (RMs) serving as a central mechanism for capturing diverse human values. While benchmarks for general response quality are prevalent, evaluating how well reward models account for individual user preferences remains an open challenge. To bridge this gap, we introduce Personalized RewardBench, a novel benchmark designed to rigorously assess reward models' capacity to model personalized preferences. We construct chosen and rejected response pairs based on strict adherence to (or violation of) user-specific rubrics, ensuring that preference distinctions are uniquely tailored to the individual. In particular, human evaluations confirm that the primary discriminative factor between pairs is strictly personal preference, with both responses maintaining high general quality (e.g., correctness, relevance and helpfulness). Extensive testing reveals that existing state-of-the-art reward models struggle significantly with personalization, peaking at an accuracy of just 75.94%. Crucially, because an effective reward model benchmark should predict a reward model's performance on downstream tasks, we conduct experiments demonstrating that our benchmark exhibits a significantly higher correlation with downstream performance in both Best-of-N (BoN) sampling and Proximal Policy Optimization (PPO) compared to existing baselines. These findings establish Personalized RewardBench as a robust and accurate proxy for evaluating reward models' performance in downstream applications.
- Abstract(参考訳): 言語モデル(LLM)の開発において、多元的アライメントは重要なフロンティアとして現れ、報酬モデル(RM)は多様な人間の価値を捉えるための中心的なメカニズムとして機能している。
一般的な応答品質のベンチマークは一般的だが、個々のユーザの好みに対する報酬モデルの評価は、依然としてオープンな課題である。
このギャップを埋めるために、パーソナライズされたRewardBenchを紹介します。
選択された応答対と拒否された応答対は、ユーザ固有のルーリックへの厳密な固執(または違反)に基づいて構成し、好みの区別が個人ごとに一意に調整されていることを保証します。
特に、人間による評価では、ペア間の主識別因子が厳密な個人的嗜好であり、両者の反応は高い一般品質(例えば、正しさ、妥当性、有用性)を維持している。
大規模なテストでは、既存の最先端の報酬モデルはパーソナライゼーションにかなり苦労し、75.94%の精度でピークに達した。
重要なことは、効果的な報酬モデルベンチマークは、下流タスクにおける報酬モデルの性能を予測する必要があるため、我々のベンチマークは、既存のベースラインと比較して、Best-of-N(BoN)サンプリングとPPO(Proximal Policy Optimization)の両方において、下流のパフォーマンスとかなり高い相関を示すことを示す実験を行う。
これらの結果は、下流アプリケーションにおける報酬モデルの性能を評価するための堅牢で正確なプロキシとしてパーソナライズされたRewardBenchを確立した。
関連論文リスト
- CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - Learning Ordinal Probabilistic Reward from Preferences [25.069054134899744]
確率的リワードモデル(PRM: Probabilistic Reward Model)を提案する。
提案手法では,報酬を決定論的スカラーとしてモデル化する代わりに,ランダム変数として扱い,各応答の品質の完全な確率分布を学習する。
OPRM上に構築したRerea Flooding Tuning(RgFT)と呼ばれるデータ効率のトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2026-02-13T06:43:02Z) - P-Check: Advancing Personalized Reward Model via Learning to Generate Dynamic Checklist [11.399221632873934]
我々は、パーソナライズされた報酬モデリングフレームワークであるP-Checkを提案する。
P-Checkは、報酬予測を導くための動的評価基準を合成するプラグアンドプレイチェックリストジェネレータを訓練する。
実験を行い、P-Checkは報酬の精度を向上するだけでなく、下流のパーソナライズされた生成も向上することを示した。
論文 参考訳(メタデータ) (2026-01-06T12:53:53Z) - Probing Preference Representations: A Multi-Dimensional Evaluation and Analysis Method for Reward Models [63.00458229517523]
本研究は、嗜好表現を探索することで、報酬モデルの評価課題に対処する。
多次元リワードモデルベンチマーク (MRMBench) を構築する。
本稿では,報酬予測時に使用する次元を同定し,その解釈可能性を高める解析手法,推論時探索を提案する。
論文 参考訳(メタデータ) (2025-11-16T05:29:29Z) - RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。
コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。
本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文 参考訳(メタデータ) (2025-06-02T17:54:04Z) - Rethinking Reward Model Evaluation Through the Lens of Reward Overoptimization [15.729285736811383]
リワードモデルは、人間のフィードバックからの強化学習において重要な役割を果たす。
既存の報酬モデルベンチマークは、最適化されたポリシーの性能と弱い相関を示す。
論文 参考訳(メタデータ) (2025-05-19T06:43:08Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。