論文の概要: Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree?
- arxiv url: http://arxiv.org/abs/2410.05584v5
- Date: Fri, 14 Feb 2025 01:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 18:05:59.158278
- Title: Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree?
- Title(参考訳): リワードモデルの評価を再考する: ワームツリーを損なうのか?
- Authors: Xueru Wen, Jie Lou, Yaojie Lu, Hongyu Lin, Xing Yu, Xinyu Lu, Ben He, Xianpei Han, Debing Zhang, Le Sun,
- Abstract要約: RMの精度の違いが、最適化されたポリシー性能のギャップにどのように変換されるかを検討する。
我々は、RM品質の測定に使用する精度が、潜在的なRM過度な最適化を十分に捉えることができないことを認識している。
- 参考スコア(独自算出の注目度): 46.396681032860414
- License:
- Abstract: Reward Models (RMs) are crucial for aligning language models with human preferences. Currently, the evaluation of RMs depends on measuring accuracy against a validation set of manually annotated preference data. Although this method is straightforward and widely adopted, the relationship between RM accuracy and downstream policy performance remains under-explored. In this work, we conduct experiments in a synthetic setting to investigate how differences in RM measured by accuracy translate into gaps in optimized policy performance. Our findings reveal that while there is a weak positive correlation between accuracy and downstream performance, policies optimized towards RMs with similar accuracy can exhibit quite different performance. Moreover, we discover that the way of measuring accuracy significantly impacts its ability to predict the final policy performance. Through the lens of the Regressional Goodhart effect, we recognize that accuracy, when used for measuring RM quality, can fail to fully capture the potential RM overoptimization. This underscores the inadequacy of relying solely on accuracy to reflect their impact on policy optimization.
- Abstract(参考訳): リワードモデル(RM)は、言語モデルと人間の嗜好の整合に不可欠である。
現在、RMの評価は、手動で注釈付けされた好みデータの検証セットに対する精度の測定に依存する。
この手法は単純で広く採用されているが、RM精度と下流政策性能の関係は未解明のままである。
本研究では, RMの精度差が, 最適化された政策性能のギャップにどのように変換されるかを検討するために, 合成環境で実験を行う。
以上の結果から, 精度と下流性能との間には正の相関が弱いが, 類似した精度でRMに最適化されたポリシーは, 全く異なる性能を示すことが示唆された。
さらに,精度の測定方法が最終的な政策性能を予測する能力に大きく影響していることが判明した。
回帰グッドハート効果のレンズを通して、RM品質の測定に使用する精度が、潜在的なRM過度な最適化を完全に捉えることに失敗することを認識する。
このことは、政策最適化への影響を反映する正確性のみに依存する不適切さを浮き彫りにする。
関連論文リスト
- RMB: Comprehensively Benchmarking Reward Models in LLM Alignment [44.84304822376291]
リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドする。
我々は、49以上の実世界のシナリオをカバーする包括的なRMベンチマークであるRMBを提案する。
ベンチマークに基づいて、最先端のRMについて広範な分析を行う。
論文 参考訳(メタデータ) (2024-10-13T16:06:54Z) - Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown [20.753374166695494]
本稿では,Uncertainty-aware Reward Model (URM)とそのアンサンブル変種URMEを紹介する。
URMは、不整合な人間の嗜好属性の分布をモデル化することにより、アレタリック不確かさを捉えるために確率的値ヘッドを用いる。
URMEはさらに、アンサンブル内の個々のURM間の不一致を調べて不確実性を定量化し、信頼できない評価の特定を可能にする。
論文 参考訳(メタデータ) (2024-10-01T16:29:59Z) - SEAL: Systematic Error Analysis for Value ALignment [4.2185937778110825]
Reinforcement Learning from Human Feedbackは、言語モデルと人間の価値を結びつけることを目的としている。
その重要性にもかかわらず、RLHFの内部機構はよく分かっていない。
本稿では,人的価値のモデリングと整合性を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2024-08-16T18:48:30Z) - Are We Really Achieving Better Beyond-Accuracy Performance in Next Basket Recommendation? [57.91114305844153]
次のバスケットレコメンデーション(NBR)は、ますます注目を集めている特別なタイプのシーケンシャルレコメンデーションである。
NBRに関する最近の研究は、繰り返し項目を推奨することと項目を探索することの間に大きなパフォーマンス差が見つかった。
本稿では,繰り返しアイテムを扱い,個別にアイテムを探索する2段階反復探索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-02T09:59:35Z) - Machine Learning Simulates Agent-Based Model Towards Policy [0.0]
ブラジルの46大都市圏(MR)におけるエージェントベースモデル(ABM)をエミュレートし,競合する政策を評価するために,ランダムな森林機械学習アルゴリズムを用いた。
その結果,各地域における政策に対する最適(かつ非最適)性能が得られた。
以上の結果から,MRには最適あるいは非最適結果が好まれる組込み構造がすでに存在することが示唆された。
論文 参考訳(メタデータ) (2022-03-04T21:19:11Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Understanding the Effects of Adversarial Personalized Ranking
Optimization Method on Recommendation Quality [6.197934754799158]
ベイズパーソナライズランキング(BPR)とAPR最適化フレームワークの学習特性をモデル化する。
APRがBPRよりも人気バイアスを増大させるのは、ショートヘッドアイテムからの肯定的な更新が不均衡に多いためである。
論文 参考訳(メタデータ) (2021-07-29T10:22:20Z) - Stochastic Optimization of Areas Under Precision-Recall Curves with
Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。