論文の概要: Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree?
- arxiv url: http://arxiv.org/abs/2410.05584v1
- Date: Tue, 15 Oct 2024 04:50:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 17:48:36.355718
- Title: Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree?
- Title(参考訳): リワードモデルの評価を再考する: ワームツリーを損なうのか?
- Authors: Xueru Wen, Jie Lou, Yaojie Lu, Hongyu Lin, Xing Yu, Xinyu Lu, Ben He, Xianpei Han, Debing Zhang, Le Sun,
- Abstract要約: RMの精度の違いが、最適化されたポリシー性能のギャップにどのように変換されるかを検討する。
精度の測定方法が最終的な政策性能を予測する能力に大きく影響していることが判明した。
- 参考スコア(独自算出の注目度): 46.396681032860414
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reward Models (RMs) are crucial for aligning language models with human preferences. Currently, the evaluation of RMs depends on measuring accuracy against a validation set of manually annotated preference data. Although this method is straightforward and widely adopted, the relationship between RM accuracy and downstream policy performance remains under-explored. In this work, we conduct experiments in a synthetic setting to investigate how differences in RM measured by accuracy translate into gaps in optimized policy performance. Our findings reveal that while there is a weak positive correlation between accuracy and downstream performance, policies optimized towards RMs with similar accuracy can exhibit quite different performance. Moreover, we discover that the way of measuring accuracy significantly impacts its ability to predict the final policy performance. Through the lens of Regressional Goodhart's effect, we identify the existence of exogenous variables impacting the relationship between RM quality measured by accuracy and policy model capability. This underscores the inadequacy of relying solely on accuracy to reflect their impact on policy optimization.
- Abstract(参考訳): リワードモデル(RM)は、言語モデルと人間の嗜好の整合に不可欠である。
現在、RMの評価は、手動で注釈付けされた好みデータの検証セットに対する精度の測定に依存する。
この手法は単純で広く採用されているが、RM精度と下流政策性能の関係は未解明のままである。
本研究では, RMの精度差が, 最適化された政策性能のギャップにどのように変換されるかを検討するために, 合成環境で実験を行う。
以上の結果から, 精度と下流性能との間には正の相関が弱いが, 類似した精度でRMに最適化されたポリシーは, 全く異なる性能を示すことが示唆された。
さらに,精度の測定方法が最終的な政策性能を予測する能力に大きく影響していることが判明した。
回帰グッドハート効果のレンズを通して、精度によって測定されたRM品質と政策モデル能力の関係に影響を及ぼす外因性変数の存在を同定する。
このことは、政策最適化への影響を反映する正確性のみに依存する不適切さを浮き彫りにする。
関連論文リスト
- RMB: Comprehensively Benchmarking Reward Models in LLM Alignment [44.84304822376291]
リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドする。
我々は、49以上の実世界のシナリオをカバーする包括的なRMベンチマークであるRMBを提案する。
ベンチマークに基づいて、最先端のRMについて広範な分析を行う。
論文 参考訳(メタデータ) (2024-10-13T16:06:54Z) - SEAL: Systematic Error Analysis for Value ALignment [4.2185937778110825]
Reinforcement Learning from Human Feedbackは、言語モデルと人間の価値を結びつけることを目的としている。
その重要性にもかかわらず、RLHFの内部機構はよく分かっていない。
本稿では,人的価値のモデリングと整合性を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2024-08-16T18:48:30Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Machine Learning Simulates Agent-Based Model Towards Policy [0.0]
ブラジルの46大都市圏(MR)におけるエージェントベースモデル(ABM)をエミュレートし,競合する政策を評価するために,ランダムな森林機械学習アルゴリズムを用いた。
その結果,各地域における政策に対する最適(かつ非最適)性能が得られた。
以上の結果から,MRには最適あるいは非最適結果が好まれる組込み構造がすでに存在することが示唆された。
論文 参考訳(メタデータ) (2022-03-04T21:19:11Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Beyond Marginal Uncertainty: How Accurately can Bayesian Regression
Models Estimate Posterior Predictive Correlations? [13.127549105535623]
入力位置の異なる関数値間の予測的相関を推定することは、しばしば有用である。
まず、後続の予測相関に依存する下流タスクについて考察する:トランスダクティブアクティブラーニング(TAL)
TALは高価で間接的にアルゴリズムの開発を誘導できないため、予測相関をより直接的に評価する2つの指標を導入する。
論文 参考訳(メタデータ) (2020-11-06T03:48:59Z) - Strategy for Boosting Pair Comparison and Improving Quality Assessment
Accuracy [29.849156371902943]
ペア比較(PC)は、差別性の観点からは絶対カテゴリー評価(ACR)に対して大きな利点がある。
本研究では,ペア比較データとACRデータをブリッジする汎用モデルを用いて,分散項を復元し,得られた情報がより完全であることを示す。
このようにして、提案手法はペア比較の精度を同等に向上するが、ACRほど高い包括性を達成できる。
論文 参考訳(メタデータ) (2020-10-01T13:05:09Z) - Decomposed Adversarial Learned Inference [118.27187231452852]
我々は,DALI(Decomposed Adversarial Learned Inference)という新しいアプローチを提案する。
DALIは、データ空間とコード空間の両方の事前および条件分布を明示的に一致させる。
MNIST, CIFAR-10, CelebAデータセットにおけるDALIの有効性を検証する。
論文 参考訳(メタデータ) (2020-04-21T20:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。