論文の概要: RMB: Comprehensively Benchmarking Reward Models in LLM Alignment
- arxiv url: http://arxiv.org/abs/2410.09893v1
- Date: Sun, 13 Oct 2024 16:06:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 04:23:08.557474
- Title: RMB: Comprehensively Benchmarking Reward Models in LLM Alignment
- Title(参考訳): RMB: LLMアライメントにおけるリワードモデルの総合ベンチマーク
- Authors: Enyu Zhou, Guodong Zheng, Binghai Wang, Zhiheng Xi, Shihan Dou, Rong Bao, Wei Shen, Limao Xiong, Jessica Fan, Yurong Mou, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドする。
我々は、49以上の実世界のシナリオをカバーする包括的なRMベンチマークであるRMBを提案する。
ベンチマークに基づいて、最先端のRMについて広範な分析を行う。
- 参考スコア(独自算出の注目度): 44.84304822376291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) guide the alignment of large language models (LLMs), steering them toward behaviors preferred by humans. Evaluating RMs is the key to better aligning LLMs. However, the current evaluation of RMs may not directly correspond to their alignment performance due to the limited distribution of evaluation data and evaluation methods that are not closely related to alignment objectives. To address these limitations, we propose RMB, a comprehensive RM benchmark that covers over 49 real-world scenarios and includes both pairwise and Best-of-N (BoN) evaluations to better reflect the effectiveness of RMs in guiding alignment optimization. We demonstrate a positive correlation between our benchmark and the downstream alignment task performance. Based on our benchmark, we conduct extensive analysis on the state-of-the-art RMs, revealing their generalization defects that were not discovered by previous benchmarks, and highlighting the potential of generative RMs. Furthermore, we delve into open questions in reward models, specifically examining the effectiveness of majority voting for the evaluation of reward models and analyzing the impact factors of generative RMs, including the influence of evaluation criteria and instructing methods. Our evaluation code and datasets are available at https://github.com/Zhou-Zoey/RMB-Reward-Model-Benchmark.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドし、人間に好まれる行動に向けてそれらを操る。
RMを評価することがLLMの整合性を高める鍵です。
しかし,現在のRMの評価は,アライメント目的と密接な関係のない評価データや評価方法の分布が限られているため,アライメント性能と直接対応しない場合がある。
これらの制約に対処するため,実世界の49以上のシナリオを網羅する総合的なRMベンチマークであるRMBを提案し,協調最適化におけるRMの有効性をよりよく反映するために,ペアワイズとBest-of-N(BoN)の評価を含む。
我々は、ベンチマークと下流アライメントタスクのパフォーマンスの正の相関を示す。
本ベンチマークでは,従来のベンチマークでは見つからなかった一般化欠陥を明らかにするとともに,生成的RMの可能性を明らかにする。
さらに、報奨モデルにおけるオープンな質問を掘り下げ、報酬モデルの評価に対する多数決の有効性を特に検証し、評価基準や指導方法の影響を含む生成RMの影響要因を分析した。
評価コードとデータセットはhttps://github.com/Zhou-Zoey/RMB-Reward-Model-Benchmarkで公開しています。
関連論文リスト
- Interpreting Language Reward Models via Contrastive Explanations [14.578645682339983]
リワードモデル(RM)は、大きな言語モデル(LLM)出力と人間の値のアライメントにおいて重要な要素である。
本稿では,RM によるバイナリ応答比較について,対照的な説明を用いて説明することを提案する。
論文 参考訳(メタデータ) (2024-11-25T15:37:27Z) - Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree? [46.396681032860414]
RMの精度の違いが、最適化されたポリシー性能のギャップにどのように変換されるかを検討する。
精度の測定方法が最終的な政策性能を予測する能力に大きく影響していることが判明した。
論文 参考訳(メタデータ) (2024-10-08T00:52:03Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - SEAL: Systematic Error Analysis for Value ALignment [4.2185937778110825]
Reinforcement Learning from Human Feedbackは、言語モデルと人間の価値を結びつけることを目的としている。
その重要性にもかかわらず、RLHFの内部機構はよく分かっていない。
本稿では,人的価値のモデリングと整合性を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2024-08-16T18:48:30Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。