論文の概要: RewardBench 2: Advancing Reward Model Evaluation
- arxiv url: http://arxiv.org/abs/2506.01937v1
- Date: Mon, 02 Jun 2025 17:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.691604
- Title: RewardBench 2: Advancing Reward Model Evaluation
- Title(参考訳): RewardBench 2: Rewardモデル評価の改善
- Authors: Saumya Malik, Valentina Pyatkin, Sander Land, Jacob Morrison, Noah A. Smith, Hannaneh Hajishirzi, Nathan Lambert,
- Abstract要約: リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。
コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。
本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
- 参考スコア(独自算出の注目度): 71.65938693914153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models are used throughout the post-training of language models to capture nuanced signals from preference data and provide a training target for optimization across instruction following, reasoning, safety, and more domains. The community has begun establishing best practices for evaluating reward models, from the development of benchmarks that test capabilities in specific skill areas to others that test agreement with human preferences. At the same time, progress in evaluation has not been mirrored by the effectiveness of reward models in downstream tasks -- simpler direct alignment algorithms are reported to work better in many cases. This paper introduces RewardBench 2, a new multi-skill reward modeling benchmark designed to bring new, challenging data for accuracy-based reward model evaluation -- models score about 20 points on average lower on RewardBench 2 compared to the first RewardBench -- while being highly correlated with downstream performance. Compared to most other benchmarks, RewardBench 2 sources new human prompts instead of existing prompts from downstream evaluations, facilitating more rigorous evaluation practices. In this paper, we describe our benchmark construction process and report how existing models perform on it, while quantifying how performance on the benchmark correlates with downstream use of the models in both inference-time scaling algorithms, like best-of-N sampling, and RLHF training algorithms like proximal policy optimization.
- Abstract(参考訳): リワードモデルは、言語モデルの後のトレーニングを通じて、嗜好データからニュアンスされた信号をキャプチャし、命令追従、推論、安全性、さらに多くのドメインにわたって最適化するためのトレーニングターゲットを提供するために使用される。
コミュニティは、特定のスキル領域で能力をテストするベンチマークの開発から、人間の好みと一致するものまで、報酬モデルを評価するためのベストプラクティスを確立し始めている。
同時に、評価の進歩は、下流タスクにおける報酬モデルの有効性によって反映されていない。
本稿では,RewardBench 2の精度に基づく報酬モデル評価のための新しい挑戦的データを提供するために設計された,新しいマルチスキル報酬モデルであるRewardBench 2について紹介する。
他のほとんどのベンチマークと比較すると、RewardBench 2は、ダウンストリーム評価からの既存のプロンプトではなく、新しいヒューマンプロンプトを出力し、より厳格な評価プラクティスを促進する。
本稿では,我々のベンチマーク構築プロセスについて述べるとともに,ベンチマークにおける既存のモデルの性能が,ベストオブNサンプリングのような推論時間スケーリングアルゴリズムと,近似ポリシ最適化のようなRLHFトレーニングアルゴリズムの両方において,モデルのダウンストリーム利用とどのように相関するかを定量的に示す。
関連論文リスト
- VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models [55.39064621869925]
OpenAI o1とDeepSeek-R1は、推論の領域で素晴らしいパフォーマンスを達成した。
彼らのトレーニングの重要な要素は、強化学習に検証可能な報酬を取り入れることである。
既存の報酬ベンチマークでは、参照ベースの報酬システムの評価は行われていない。
論文 参考訳(メタデータ) (2025-05-21T17:54:43Z) - A Unified Pairwise Framework for RLHF: Bridging Generative Reward Modeling and Policy Optimization [18.892740849961456]
Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと人間の好みを協調させる重要なパラダイムとして生まれてきた。
本稿では,これらの課題に対処するRLHFフレームワークであるPairwise-RLを紹介する。
論文 参考訳(メタデータ) (2025-04-07T11:34:48Z) - reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs [64.29893431743608]
現状の報奨モデルでは, 入力変換が小さい場合でも, 大幅な性能劣化に悩まされていることを示す。
同様のスコアをパラフレーズに割り当てるように明示的にトレーニングすることを提案するが、この手法は他の異なる種類の変換に対する堅牢性も向上する。
論文 参考訳(メタデータ) (2025-03-14T17:59:41Z) - CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。
本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。
我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。