論文の概要: RATE: Score Reward Models with Imperfect Rewrites of Rewrites
- arxiv url: http://arxiv.org/abs/2410.11348v1
- Date: Tue, 15 Oct 2024 07:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:08.442144
- Title: RATE: Score Reward Models with Imperfect Rewrites of Rewrites
- Title(参考訳): RATE: 書き直しの不完全な書き直しを伴うスコアリワードモデル
- Authors: David Reber, Sean Richardson, Todd Nief, Cristina Garbacea, Victor Veitch,
- Abstract要約: 我々は,その応答に割り当てられた報酬に対する属性の因果効果を測定するための評価方法を開発した。
中心となる考え方は、大きな言語モデルを使用してレスポンスを書き直し、不完全な偽物を生成することである。
RATE推定器は合理的な仮定の下で一貫したものであることを示す。
- 参考スコア(独自算出の注目度): 11.121749884408331
- License:
- Abstract: This paper concerns the evaluation of reward models used in language modeling. A reward model is a function that takes a prompt and a response and assigns a score indicating how good that response is for the prompt. A key challenge is that reward models are usually imperfect proxies for actual preferences. For example, we may worry that a model trained to reward helpfulness learns to instead prefer longer responses. In this paper, we develop an evaluation method, RATE (Rewrite-based Attribute Treatment Estimators), that allows us to measure the causal effect of a given attribute of a response (e.g., length) on the reward assigned to that response. The core idea is to use large language models to rewrite responses to produce imperfect counterfactuals, and to adjust for rewriting error by rewriting twice. We show that the RATE estimator is consistent under reasonable assumptions. We demonstrate the effectiveness of RATE on synthetic and real-world data, showing that it can accurately estimate the effect of a given attribute on the reward model.
- Abstract(参考訳): 本稿では,言語モデルにおける報酬モデルの評価について述べる。
報酬モデルは、プロンプトとレスポンスを受け取り、そのレスポンスがプロンプトにどれくらい良いかを示すスコアを割り当てる関数である。
重要な課題は、報酬モデルが実際の嗜好に不完全なプロキシであることだ。
例えば、助力に報いるために訓練されたモデルが、代わりに長いレスポンスを好むことを心配するかもしれません。
本稿では,RATE(Rewrite-based Attribute Treatment Estimators)の評価手法を開発し,その応答に割り当てられた報酬に対する応答(eg, length)の属性の因果効果を測定する。
中心となる考え方は、大きな言語モデルを使用して応答を書き換え、不完全な偽物を生成すること、そして2回書き直すことでエラーの書き直しを調整することである。
RATE推定器は合理的な仮定の下で一貫したものであることを示す。
合成および実世界のデータに対するRATEの有効性を実証し、与えられた属性が報酬モデルに与える影響を正確に推定できることを示す。
関連論文リスト
- Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文 参考訳(メタデータ) (2025-02-20T14:57:14Z) - Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment [30.605500809158986]
本稿では,因果推論を統合し,素因果関係を緩和する因果報酬モデリング手法を提案する。
提案手法は様々な種類のスプリアス相関を効果的に緩和し,LLMと人間の嗜好との整合性を高めた。
論文 参考訳(メタデータ) (2025-01-16T16:00:37Z) - When Can Proxies Improve the Sample Complexity of Preference Learning? [63.660855773627524]
我々は,代行報酬の最大化が必ずしも真の報酬を増やすとは限らない,報酬ハッキングの問題に対処する。
プロキシフィードバックに関する十分な条件を概説し、満足すれば、プロキシデータが基底真理ポリシーを学習する際のサンプルの複雑さを確実に改善できることを示す。
論文 参考訳(メタデータ) (2024-12-21T04:07:17Z) - CREAM: Consistency Regularized Self-Rewarding Language Models [34.325289477993586]
自己回帰型大規模言語モデル (LLM) は, 優先データに対する人間のアノテーションを必要とせずに, LLM-as-a-Judge を用いてアライメント性能を向上させることに成功した。
しかし、報酬とランキングの正確性は保証されていないため、精度の高い報酬と高品質な選好データを保証するのに不可欠である。
本稿では,各イテレーション間の報酬整合性を利用して自己回帰訓練を規則化する一貫性正規化sElf-rewarding lAnguage Model (CREAM)を提案する。
論文 参考訳(メタデータ) (2024-10-16T16:51:01Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。
公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文 参考訳(メタデータ) (2024-05-23T11:00:19Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - A Baseline Analysis of Reward Models' Ability To Accurately Analyze
Foundation Models Under Distribution Shift [2.2310395620011945]
我々は、分配シフトによる報酬モデルの性能への影響を評価する。
OODプロンプトと応答による新しい校正パターンと精度低下を示す。
我々は、分類によく用いられるOOD検出手法を報酬モデル設定に適用し、これらの分布シフトを検出する。
論文 参考訳(メタデータ) (2023-11-21T18:41:26Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z) - Model Optimization in Imbalanced Regression [2.580765958706854]
不均衡なドメイン学習は、あまり表現されていないがドメインにとって最も重要であるインスタンスを予測するための正確なモデルを作成することを目的としている。
主な理由の1つは、極端な(まれな)値の誤差を最小限に抑えることができる損失関数の欠如である。
最近、評価指標が導入された: 正方形誤差関連領域(SERA)
このメトリクスは、極端な値で犯したエラーに重点を置いていると同時に、ターゲット変数全体のパフォーマンスも考慮している。
論文 参考訳(メタデータ) (2022-06-20T20:23:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。