Fugu-MT 論文翻訳(概要): RewardBench: Evaluating Reward Models for Language Modeling

論文の概要: RewardBench: Evaluating Reward Models for Language Modeling

arxiv url: http://arxiv.org/abs/2403.13787v1
Date: Wed, 20 Mar 2024 17:49:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 15:58:55.784410
Title: RewardBench: Evaluating Reward Models for Language Modeling
Title（参考訳）: RewardBench: 言語モデリングのためのRewardモデルの評価
Authors: Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi,
Abstract要約: 本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。 RewardBenchデータセットは、チャット、推論、安全性にまたがる、プロンプト・ウィン・ローズ・トリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
参考スコア（独自算出の注目度）: 100.28366840977966
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reward models (RMs) are at the crux of successful RLHF to align pretrained models to human preferences, yet there has been relatively little study that focuses on evaluation of those reward models. Evaluating reward models presents an opportunity to understand the opaque technologies used for alignment of language models and which values are embedded in them. To date, very few descriptors of capabilities, training methods, or open-source reward models exist. In this paper, we present RewardBench, a benchmark dataset and code-base for evaluation, to enhance scientific understanding of reward models. The RewardBench dataset is a collection of prompt-win-lose trios spanning chat, reasoning, and safety, to benchmark how reward models perform on challenging, structured and out-of-distribution queries. We created specific comparison datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect facts) why one answer should be preferred to another. On the RewardBench leaderboard, we evaluate reward models trained with a variety of methods, such as the direct MLE training of classifiers and the implicit reward modeling of Direct Preference Optimization (DPO), and on a spectrum of datasets. We present many findings on propensity for refusals, reasoning limitations, and instruction following shortcomings of various reward models towards a better understanding of the RLHF process.
Abstract（参考訳）: リワードモデル(RM)は、事前訓練されたモデルを人間の嗜好に合わせるためにRLHFの成功の最前線にあるが、これらの報酬モデルの評価に焦点を当てた研究は比較的少ない。報酬モデルを評価することは、言語モデルのアライメントに使用される不透明な技術と、どの値が組み込まれているかを理解する機会を与える。これまでのところ、機能記述やトレーニング方法、オープンソースの報酬モデルはほとんど存在していない。本稿では、評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介し、報酬モデルの科学的理解を高める。 RewardBenchデータセットは、チャット、推論、安全性にまたがる、プロンプト・ウィン・ローズ・トリオのコレクションで、困難で構造化された、配布外クエリ上での報酬モデルのパフォーマンスをベンチマークする。私たちは、微妙だが検証可能な理由(例えば、バグ、誤った事実)を持つRMの特定の比較データセットを作成しました。 RewardBenchのリーダーボードでは、分類器の直接MLE訓練や直接選好最適化(DPO)の暗黙の報奨モデル、データセットのスペクトルなど、様々な手法で訓練された報酬モデルを評価する。我々は,RLHFプロセスの理解を深めるために,様々な報酬モデルの欠点に続き,拒絶の正当性,推論の限界,指示に関する多くの知見を提示する。

関連論文リスト

RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文参考訳（メタデータ） (2025-06-02T17:54:04Z)
Reward Reasoning Model [104.39256985858428]
Reward Reasoning Models (RRM) は、最終的な報酬を生成する前に意図的に推論プロセスを実行するように設計されている。自己発展型報酬推論能力を育成する強化学習フレームワークを実装した。特に、RTMはテスト時間計算を適応的に利用して報酬の精度をさらに向上させることができる。
論文参考訳（メタデータ） (2025-05-20T17:58:03Z)
RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-05T06:11:12Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives [14.401557416713315]
報奨モデルにおけるBradley-Terryモデル(BT)モデルの使用の基礎を再考する。我々は,下流最適化の観点から,BTモデルが必須選択ではないことを論じる。既成のバイナリ分類器と互換性のある,単純で簡単な上行法を提案する。
論文参考訳（メタデータ） (2024-11-07T18:57:03Z)
RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style [37.97757796124621]
RM-Benchは、微妙な内容の違いに対する感度とスタイルバイアスに対する耐性に基づいて報酬モデルを評価するために設計された新しいベンチマークである。 RM-Bench上で40近い報酬モデルを評価し,最先端モデルでさえ平均性能は46.6%に過ぎなかった。
論文参考訳（メタデータ） (2024-10-21T16:48:26Z)
General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文参考訳（メタデータ） (2024-10-03T04:22:55Z)
Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。 RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文参考訳（メタデータ） (2024-10-02T16:39:58Z)
Quantile Regression for Distributional Reward Models in RLHF [1.8130068086063336]
我々は,1つのスカラー値の代わりに報酬よりも分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。提案手法は量子レグレッションを用いて、選好よりも完全な、潜在的に多モード分布を推定し、より強力でニュアンスな選好表現を提供する。実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。
論文参考訳（メタデータ） (2024-09-16T10:54:04Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文参考訳（メタデータ） (2024-07-04T23:26:56Z)
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging [65.41765072566287]
textbfDomain knowledtextbfge merged textbfReward textbfModel(DogeRM)を提案する。
論文参考訳（メタデータ） (2024-07-01T17:01:54Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。