Fugu-MT 論文翻訳(概要): RMB: Comprehensively Benchmarking Reward Models in LLM Alignment

論文の概要: RMB: Comprehensively Benchmarking Reward Models in LLM Alignment

arxiv url: http://arxiv.org/abs/2410.09893v1
Date: Sun, 13 Oct 2024 16:06:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 04:23:08.557474
Title: RMB: Comprehensively Benchmarking Reward Models in LLM Alignment
Title（参考訳）: RMB: LLMアライメントにおけるリワードモデルの総合ベンチマーク
Authors: Enyu Zhou, Guodong Zheng, Binghai Wang, Zhiheng Xi, Shihan Dou, Rong Bao, Wei Shen, Limao Xiong, Jessica Fan, Yurong Mou, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang,
Abstract要約: リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドする。我々は、49以上の実世界のシナリオをカバーする包括的なRMベンチマークであるRMBを提案する。ベンチマークに基づいて、最先端のRMについて広範な分析を行う。
参考スコア（独自算出の注目度）: 44.84304822376291
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reward models (RMs) guide the alignment of large language models (LLMs), steering them toward behaviors preferred by humans. Evaluating RMs is the key to better aligning LLMs. However, the current evaluation of RMs may not directly correspond to their alignment performance due to the limited distribution of evaluation data and evaluation methods that are not closely related to alignment objectives. To address these limitations, we propose RMB, a comprehensive RM benchmark that covers over 49 real-world scenarios and includes both pairwise and Best-of-N (BoN) evaluations to better reflect the effectiveness of RMs in guiding alignment optimization. We demonstrate a positive correlation between our benchmark and the downstream alignment task performance. Based on our benchmark, we conduct extensive analysis on the state-of-the-art RMs, revealing their generalization defects that were not discovered by previous benchmarks, and highlighting the potential of generative RMs. Furthermore, we delve into open questions in reward models, specifically examining the effectiveness of majority voting for the evaluation of reward models and analyzing the impact factors of generative RMs, including the influence of evaluation criteria and instructing methods. Our evaluation code and datasets are available at https://github.com/Zhou-Zoey/RMB-Reward-Model-Benchmark.
Abstract（参考訳）: リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドし、人間に好まれる行動に向けてそれらを操る。 RMを評価することがLLMの整合性を高める鍵です。しかし,現在のRMの評価は,アライメント目的と密接な関係のない評価データや評価方法の分布が限られているため,アライメント性能と直接対応しない場合がある。これらの制約に対処するため,実世界の49以上のシナリオを網羅する総合的なRMベンチマークであるRMBを提案し,協調最適化におけるRMの有効性をよりよく反映するために,ペアワイズとBest-of-N(BoN)の評価を含む。我々は、ベンチマークと下流アライメントタスクのパフォーマンスの正の相関を示す。本ベンチマークでは,従来のベンチマークでは見つからなかった一般化欠陥を明らかにするとともに,生成的RMの可能性を明らかにする。さらに、報奨モデルにおけるオープンな質問を掘り下げ、報酬モデルの評価に対する多数決の有効性を特に検証し、評価基準や指導方法の影響を含む生成RMの影響要因を分析した。評価コードとデータセットはhttps://github.com/Zhou-Zoey/RMB-Reward-Model-Benchmarkで公開しています。

関連論文リスト

RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
Energy-Based Reward Models for Robust Language Model Alignment [9.843359827321194]
省エネルギーリワードモデル(EBRM)について紹介する。 EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文参考訳（メタデータ） (2025-04-17T17:47:15Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文参考訳（メタデータ） (2025-01-13T13:10:16Z)
RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment [18.491114307921848]
RAG設定におけるRM評価のための最初のベンチマークであるRAG-RewardBenchを提案する。まず、RMを評価するために、RAG固有の4つの決定的かつ挑戦的なシナリオを設計する。次に、データソースの多様性を高めるために、18個のRAGサブセット、6個のレトリバー、24個のALMを組み込んだ。最後に、LLM-as-a-judgeアプローチを採用し、好みのアノテーション効率と有効性を改善する。
論文参考訳（メタデータ） (2024-12-18T11:28:05Z)
Interpreting Language Reward Models via Contrastive Explanations [14.578645682339983]
リワードモデル(RM)は、大きな言語モデル(LLM)出力と人間の値のアライメントにおいて重要な要素である。本稿では,RM によるバイナリ応答比較について,対照的な説明を用いて説明することを提案する。
論文参考訳（メタデータ） (2024-11-25T15:37:27Z)
Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree? [46.396681032860414]
RMの精度の違いが、最適化されたポリシー性能のギャップにどのように変換されるかを検討する。精度の測定方法が最終的な政策性能を予測する能力に大きく影響していることが判明した。
論文参考訳（メタデータ） (2024-10-08T00:52:03Z)
Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。 BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-09-21T18:39:53Z)
SEAL: Systematic Error Analysis for Value ALignment [4.2185937778110825]
Reinforcement Learning from Human Feedbackは、言語モデルと人間の価値を結びつけることを目的としている。その重要性にもかかわらず、RLHFの内部機構はよく分かっていない。本稿では,人的価値のモデリングと整合性を評価するための新しい指標を提案する。
論文参考訳（メタデータ） (2024-08-16T18:48:30Z)
Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。 PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-04-01T07:49:11Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文参考訳（メタデータ） (2023-06-07T17:47:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。