論文の概要: RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style
- arxiv url: http://arxiv.org/abs/2410.16184v1
- Date: Mon, 21 Oct 2024 16:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:12.487061
- Title: RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style
- Title(参考訳): RM-Bench: サブトルティとスタイルを持つ言語モデルのリワードモデルのベンチマーク
- Authors: Yantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li,
- Abstract要約: RM-Benchは、微妙な内容の違いに対する感度とスタイルバイアスに対する耐性に基づいて報酬モデルを評価するために設計された新しいベンチマークである。
RM-Bench上で40近い報酬モデルを評価し,最先端モデルでさえ平均性能は46.6%に過ぎなかった。
- 参考スコア(独自算出の注目度): 37.97757796124621
- License:
- Abstract: Reward models are critical in techniques like Reinforcement Learning from Human Feedback (RLHF) and Inference Scaling Laws, where they guide language model alignment and select optimal responses. Despite their importance, existing reward model benchmarks often evaluate models by asking them to distinguish between responses generated by models of varying power. However, this approach fails to assess reward models on subtle but critical content changes and variations in style, resulting in a low correlation with policy model performance. To this end, we introduce RM-Bench, a novel benchmark designed to evaluate reward models based on their sensitivity to subtle content differences and resistance to style biases. Extensive experiments demonstrate that RM-Bench strongly correlates with policy model performance, making it a reliable reference for selecting reward models to align language models effectively. We evaluate nearly 40 reward models on RM-Bench. Our results reveal that even state-of-the-art models achieve an average performance of only 46.6%, which falls short of random-level accuracy (50%) when faced with style bias interference. These findings highlight the significant room for improvement in current reward models. Related code and data are available at https://github.com/THU-KEG/RM-Bench.
- Abstract(参考訳): リワードモデルは、RLHF(Reinforcement Learning from Human Feedback)や推論スケーリング法則(Inference Scaling Laws)といったテクニックにおいて重要であり、言語モデルのアライメントをガイドし、最適な応答を選択する。
その重要性にもかかわらず、既存の報酬モデルベンチマークは、様々なパワーのモデルによって生成された応答を区別するよう求め、モデルを評価することが多い。
しかし、この手法では、微妙ながら重要な内容の変化やスタイルの変化に対する報酬モデルの評価に失敗し、結果としてポリシーモデルの性能との相関が低くなる。
RM-ベンチ(RM-Bench)は、微妙な内容の違いに対する感度と、スタイルバイアスに対する耐性に基づいて報酬モデルを評価するための新しいベンチマークである。
包括的な実験により、RM-Benchはポリシーモデルの性能と強く相関していることが示され、言語モデルを効果的に整合させる報酬モデルを選択するための信頼性の高い基準となっている。
RM-Benchの報酬モデルについて検討した。
その結果、最先端モデルでさえ46.6%しか平均性能を達成できず、スタイル偏差に直面すると、ランダムレベルの精度(50%)に欠けることがわかった。
これらの結果は、現在の報酬モデルを改善するための重要な余地を浮き彫りにしている。
関連コードとデータはhttps://github.com/THU-KEG/RM-Bench.comで公開されている。
関連論文リスト
- Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - Quantile Regression for Distributional Reward Models in RLHF [1.8130068086063336]
我々は,1つのスカラー値の代わりに報酬よりも分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。
提案手法は量子レグレッションを用いて、選好よりも完全な、潜在的に多モード分布を推定し、より強力でニュアンスな選好表現を提供する。
実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T10:54:04Z) - Critique-out-Loud Reward Models [20.631830494414096]
本稿では,Crytique-out-Loud(CLoud)報酬モデルを紹介する。
CLoud報酬モデルは、まずアシスタントの応答に対する自然言語の批判を生成することで機能する。
我々は,Llama-3-8Bおよび70BベースモデルのCLoud報酬モデルの成功例を示した。
論文 参考訳(メタデータ) (2024-08-21T17:24:15Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。