論文の概要: RewardBench 2: Advancing Reward Model Evaluation
- arxiv url: http://arxiv.org/abs/2506.01937v1
- Date: Mon, 02 Jun 2025 17:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.691604
- Title: RewardBench 2: Advancing Reward Model Evaluation
- Title(参考訳): RewardBench 2: Rewardモデル評価の改善
- Authors: Saumya Malik, Valentina Pyatkin, Sander Land, Jacob Morrison, Noah A. Smith, Hannaneh Hajishirzi, Nathan Lambert,
- Abstract要約: リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。
コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。
本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
- 参考スコア(独自算出の注目度): 71.65938693914153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models are used throughout the post-training of language models to capture nuanced signals from preference data and provide a training target for optimization across instruction following, reasoning, safety, and more domains. The community has begun establishing best practices for evaluating reward models, from the development of benchmarks that test capabilities in specific skill areas to others that test agreement with human preferences. At the same time, progress in evaluation has not been mirrored by the effectiveness of reward models in downstream tasks -- simpler direct alignment algorithms are reported to work better in many cases. This paper introduces RewardBench 2, a new multi-skill reward modeling benchmark designed to bring new, challenging data for accuracy-based reward model evaluation -- models score about 20 points on average lower on RewardBench 2 compared to the first RewardBench -- while being highly correlated with downstream performance. Compared to most other benchmarks, RewardBench 2 sources new human prompts instead of existing prompts from downstream evaluations, facilitating more rigorous evaluation practices. In this paper, we describe our benchmark construction process and report how existing models perform on it, while quantifying how performance on the benchmark correlates with downstream use of the models in both inference-time scaling algorithms, like best-of-N sampling, and RLHF training algorithms like proximal policy optimization.
- Abstract(参考訳): リワードモデルは、言語モデルの後のトレーニングを通じて、嗜好データからニュアンスされた信号をキャプチャし、命令追従、推論、安全性、さらに多くのドメインにわたって最適化するためのトレーニングターゲットを提供するために使用される。
コミュニティは、特定のスキル領域で能力をテストするベンチマークの開発から、人間の好みと一致するものまで、報酬モデルを評価するためのベストプラクティスを確立し始めている。
同時に、評価の進歩は、下流タスクにおける報酬モデルの有効性によって反映されていない。
本稿では,RewardBench 2の精度に基づく報酬モデル評価のための新しい挑戦的データを提供するために設計された,新しいマルチスキル報酬モデルであるRewardBench 2について紹介する。
他のほとんどのベンチマークと比較すると、RewardBench 2は、ダウンストリーム評価からの既存のプロンプトではなく、新しいヒューマンプロンプトを出力し、より厳格な評価プラクティスを促進する。
本稿では,我々のベンチマーク構築プロセスについて述べるとともに,ベンチマークにおける既存のモデルの性能が,ベストオブNサンプリングのような推論時間スケーリングアルゴリズムと,近似ポリシ最適化のようなRLHFトレーニングアルゴリズムの両方において,モデルのダウンストリーム利用とどのように相関するかを定量的に示す。
関連論文リスト
- IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - Aligning Language Model Benchmarks with Pairwise Preferences [15.427340427081843]
ベンチマークアライメントを導入し、モデルパフォーマンスに関する限られた量の情報を使用して、オフラインベンチマークを自動的に更新します。
次に、ベンチマーク問題に対する優先順の重み付けを学習するBenchAlignを提案する。
我々の実験は、一致したベンチマークが、異なるサイズであっても、人間の好みのモデルに従って、正確に、見つからないモデルをランク付けできることを示している。
論文 参考訳(メタデータ) (2026-02-02T23:11:09Z) - CE-RM: A Pointwise Generative Reward Model Optimized via Two-Stage Rollout and Unified Criteria [48.70940362676624]
専用の2段階ロールアウト法を用いて学習したポイントワイズ生成報酬モデルCE-RM-4Bを提案する。
オープンソースの選好データセットから算出した約5.7Kの高品質データを用いて、CE-RM-4Bは様々な報奨モデルベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2026-01-28T07:46:13Z) - ODP-Bench: Benchmarking Out-of-Distribution Performance Prediction [29.953921358142477]
Out-of-Distribution (OOD)パフォーマンス予測は、未ラベルのテストデータセット上でトレーニングされたモデルのパフォーマンスを予測することを目的としている。
OODデータセットと既存の実用的な性能予測アルゴリズムを含む総合ベンチマークであるOut-of-Distribution Performance Prediction Benchmark (ODP-Bench)を提案する。
我々は、将来の研究者のためのテストベンチとしてトレーニングされたモデルを提供し、比較の一貫性を保証し、モデルのトレーニングプロセスの繰り返しの負担を回避する。
論文 参考訳(メタデータ) (2025-10-31T08:03:35Z) - Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文 参考訳(メタデータ) (2025-07-02T05:10:29Z) - OIBench: Benchmarking Strong Reasoning Models with Olympiad in Informatics [13.049841309304922]
本稿では,OIBenchについて紹介する。OIBenchは高品質でプライベートで,250個の厳格なオリジナル問題からなる,オリンピックレベルの情報データセットである。
ベンチマークの構築手法を詳述し、様々なプログラミングパラダイムや複雑さの包括的評価を確実にする。
我々は,よりきめ細かな効率解析のための時間/空間補完曲線を提案し,直接人-モデル比較を可能にする。
論文 参考訳(メタデータ) (2025-06-12T08:33:38Z) - VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models [55.39064621869925]
OpenAI o1とDeepSeek-R1は、推論の領域で素晴らしいパフォーマンスを達成した。
彼らのトレーニングの重要な要素は、強化学習に検証可能な報酬を取り入れることである。
既存の報酬ベンチマークでは、参照ベースの報酬システムの評価は行われていない。
論文 参考訳(メタデータ) (2025-05-21T17:54:43Z) - A Unified Pairwise Framework for RLHF: Bridging Generative Reward Modeling and Policy Optimization [18.892740849961456]
Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと人間の好みを協調させる重要なパラダイムとして生まれてきた。
本稿では,これらの課題に対処するRLHFフレームワークであるPairwise-RLを紹介する。
論文 参考訳(メタデータ) (2025-04-07T11:34:48Z) - reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs [64.29893431743608]
現状の報奨モデルでは, 入力変換が小さい場合でも, 大幅な性能劣化に悩まされていることを示す。
同様のスコアをパラフレーズに割り当てるように明示的にトレーニングすることを提案するが、この手法は他の異なる種類の変換に対する堅牢性も向上する。
論文 参考訳(メタデータ) (2025-03-14T17:59:41Z) - CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。
本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。
我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。