論文の概要: Establishing Reliability Metrics for Reward Models in Large Language Models
- arxiv url: http://arxiv.org/abs/2504.14838v1
- Date: Mon, 21 Apr 2025 03:39:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 19:42:28.605554
- Title: Establishing Reliability Metrics for Reward Models in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるリワードモデルに対する信頼性指標の確立
- Authors: Yizhou Chen, Yawen Liu, Xuesi Wang, Qingtao Yu, Guangda Huzhang, Anxiang Zeng, Han Yu, Zhiming Zhou,
- Abstract要約: 人間の嗜好を表す報酬モデル(RM)は、大規模言語モデル(LLM)の出力を最適化する上で重要な役割を果たす。
我々は、RMの信頼性を測定するために、アンダーライン$eta$ (RETA) メトリックで itunderlineReliable を提案する。
RETAの上には、Oracleのラベル付けコストを発生させることなく、誰でも自身のRMを評価することができる統合ベンチマークパイプラインがあります。
- 参考スコア(独自算出の注目度): 17.26528659228218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reward model (RM) that represents human preferences plays a crucial role in optimizing the outputs of large language models (LLMs), e.g., through reinforcement learning from human feedback (RLHF) or rejection sampling. However, a long challenge for RM is its uncertain reliability, i.e., LLM outputs with higher rewards may not align with actual human preferences. Currently, there is a lack of a convincing metric to quantify the reliability of RMs. To bridge this gap, we propose the \textit{\underline{R}eliable at \underline{$\eta$}} (RETA) metric, which directly measures the reliability of an RM by evaluating the average quality (scored by an oracle) of the top $\eta$ quantile responses assessed by an RM. On top of RETA, we present an integrated benchmarking pipeline that allows anyone to evaluate their own RM without incurring additional Oracle labeling costs. Extensive experimental studies demonstrate the superior stability of RETA metric, providing solid evaluations of the reliability of various publicly available and proprietary RMs. When dealing with an unreliable RM, we can use the RETA metric to identify the optimal quantile from which to select the responses.
- Abstract(参考訳): ヒトの嗜好を表す報酬モデル(RM)は、人間のフィードバック(RLHF)や拒絶サンプリング(RLHF)からの強化学習を通じて、大きな言語モデル(LLM)の出力を最適化する上で重要な役割を果たす。
しかし、RMの長きにわたる課題は、信頼性の不確実さ、すなわち、高い報酬を持つLCM出力は、実際の人間の嗜好と一致しない可能性があることである。
現在、RMの信頼性を定量化するための説得力のある計量が欠けている。
このギャップを埋めるために, RMが評価する上位$$\eta$量子化応答の平均品質(オラクルで表される)を評価することにより, RMの信頼性を直接測定する, \textit{\underline{R}eliable at \underline{$\eta$}} (RETA) 計量を提案する。
RETAの上には、Oracleのラベル付けコストを発生させることなく、誰でも自身のRMを評価することができる統合ベンチマークパイプラインがあります。
広範囲にわたる実験研究により、RETA測定の安定性が向上し、様々な公用および独占的なRMの信頼性をしっかりと評価できることが示された。
信頼できないRMを扱う場合、RETAメトリックを使用して、応答を選択するための最適な量子化を特定できる。
関連論文リスト
- Energy-Based Reward Models for Robust Language Model Alignment [9.843359827321194]
省エネルギーリワードモデル(EBRM)について紹介する。
EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。
実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文 参考訳(メタデータ) (2025-04-17T17:47:15Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - RMB: Comprehensively Benchmarking Reward Models in LLM Alignment [44.84304822376291]
リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドする。
我々は、49以上の実世界のシナリオをカバーする包括的なRMベンチマークであるRMBを提案する。
ベンチマークに基づいて、最先端のRMについて広範な分析を行う。
論文 参考訳(メタデータ) (2024-10-13T16:06:54Z) - Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown [20.753374166695494]
本稿では,Uncertainty-aware Reward Model (URM)とそのアンサンブル変種URMEを紹介する。
URMは、不整合な人間の嗜好属性の分布をモデル化することにより、アレタリック不確かさを捉えるために確率的値ヘッドを用いる。
URMEはさらに、アンサンブル内の個々のURM間の不一致を調べて不確実性を定量化し、信頼できない評価の特定を可能にする。
論文 参考訳(メタデータ) (2024-10-01T16:29:59Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z) - Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。
我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文 参考訳(メタデータ) (2024-06-18T17:58:28Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z) - On Continual Model Refinement in Out-of-Distribution Data Streams [64.62569873799096]
現実世界の自然言語処理(NLP)モデルは、アウト・オブ・ディストリビューション(OOD)データストリームの予測エラーを修正するために、継続的に更新する必要がある。
既存の継続学習(CL)問題設定は、そのような現実的で複雑なシナリオをカバーできない。
連続モデル改良(CMR)と呼ばれる新しいCL問題定式化を提案する。
論文 参考訳(メタデータ) (2022-05-04T11:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。