論文の概要: RATE: Score Reward Models with Imperfect Rewrites of Rewrites
- arxiv url: http://arxiv.org/abs/2410.11348v1
- Date: Tue, 15 Oct 2024 07:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:08.442144
- Title: RATE: Score Reward Models with Imperfect Rewrites of Rewrites
- Title(参考訳): RATE: 書き直しの不完全な書き直しを伴うスコアリワードモデル
- Authors: David Reber, Sean Richardson, Todd Nief, Cristina Garbacea, Victor Veitch,
- Abstract要約: 我々は,その応答に割り当てられた報酬に対する属性の因果効果を測定するための評価方法を開発した。
中心となる考え方は、大きな言語モデルを使用してレスポンスを書き直し、不完全な偽物を生成することである。
RATE推定器は合理的な仮定の下で一貫したものであることを示す。
- 参考スコア(独自算出の注目度): 11.121749884408331
- License:
- Abstract: This paper concerns the evaluation of reward models used in language modeling. A reward model is a function that takes a prompt and a response and assigns a score indicating how good that response is for the prompt. A key challenge is that reward models are usually imperfect proxies for actual preferences. For example, we may worry that a model trained to reward helpfulness learns to instead prefer longer responses. In this paper, we develop an evaluation method, RATE (Rewrite-based Attribute Treatment Estimators), that allows us to measure the causal effect of a given attribute of a response (e.g., length) on the reward assigned to that response. The core idea is to use large language models to rewrite responses to produce imperfect counterfactuals, and to adjust for rewriting error by rewriting twice. We show that the RATE estimator is consistent under reasonable assumptions. We demonstrate the effectiveness of RATE on synthetic and real-world data, showing that it can accurately estimate the effect of a given attribute on the reward model.
- Abstract(参考訳): 本稿では,言語モデルにおける報酬モデルの評価について述べる。
報酬モデルは、プロンプトとレスポンスを受け取り、そのレスポンスがプロンプトにどれくらい良いかを示すスコアを割り当てる関数である。
重要な課題は、報酬モデルが実際の嗜好に不完全なプロキシであることだ。
例えば、助力に報いるために訓練されたモデルが、代わりに長いレスポンスを好むことを心配するかもしれません。
本稿では,RATE(Rewrite-based Attribute Treatment Estimators)の評価手法を開発し,その応答に割り当てられた報酬に対する応答(eg, length)の属性の因果効果を測定する。
中心となる考え方は、大きな言語モデルを使用して応答を書き換え、不完全な偽物を生成すること、そして2回書き直すことでエラーの書き直しを調整することである。
RATE推定器は合理的な仮定の下で一貫したものであることを示す。
合成および実世界のデータに対するRATEの有効性を実証し、与えられた属性が報酬モデルに与える影響を正確に推定できることを示す。
関連論文リスト
- Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。
公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文 参考訳(メタデータ) (2024-05-23T11:00:19Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Rethinking the Role of Proxy Rewards in Language Model Alignment [39.53237479058083]
逆報酬工学による大規模言語モデルのアライメントにおける代行報酬の役割について検討する。
我々は,金の報酬信号とプロキシのモノトニックな関係を達成し,金の報酬信号を再現することを目指している。
以上の結果から,金の報酬をうまくエミュレートするには,十分な長さの質問に対する応答を生成する必要があることが示唆された。
論文 参考訳(メタデータ) (2024-02-02T11:58:08Z) - A Baseline Analysis of Reward Models' Ability To Accurately Analyze
Foundation Models Under Distribution Shift [2.2310395620011945]
我々は、分配シフトによる報酬モデルの性能への影響を評価する。
OODプロンプトと応答による新しい校正パターンと精度低下を示す。
我々は、分類によく用いられるOOD検出手法を報酬モデル設定に適用し、これらの分布シフトを検出する。
論文 参考訳(メタデータ) (2023-11-21T18:41:26Z) - Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。