論文の概要: Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown
- arxiv url: http://arxiv.org/abs/2410.00847v2
- Date: Wed, 12 Feb 2025 03:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 18:10:00.652425
- Title: Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown
- Title(参考訳): 不確かさを意識したリワードモデル:未知のモデルを理解するためにリワードモデルを教える
- Authors: Xingzhou Lou, Dong Yan, Wei Shen, Yuzi Yan, Jian Xie, Junge Zhang,
- Abstract要約: 本稿では,Uncertainty-aware Reward Model (URM)とそのアンサンブル変種URMEを紹介する。
URMは、不整合な人間の嗜好属性の分布をモデル化することにより、アレタリック不確かさを捉えるために確率的値ヘッドを用いる。
URMEはさらに、アンサンブル内の個々のURM間の不一致を調べて不確実性を定量化し、信頼できない評価の特定を可能にする。
- 参考スコア(独自算出の注目度): 20.753374166695494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models (RMs) are essential for aligning large language models (LLM) with human expectations. However, existing RMs struggle to capture the stochastic and uncertain nature of human preferences and fail to assess the reliability of reward predictions. To address these challenges, we introduce the Uncertainty-aware Reward Model (URM) and its ensemble variant, URME. URM employs a probabilistic value head to capture aleatoric uncertainty by modeling the distribution of disentangled human preference attributes. URME further quantifies epistemic uncertainty by examining discrepancies among individual URMs within the ensemble, enabling identification of unreliable evaluations. Our empirical evaluations demonstrate that URM achieves strong performance on RewardBench, outperforming competitive large-scale models. Additionally, extensive experiments, including best-of-n sampling (BoN), iterative direct preference optimization (iterative DPO), and proximal policy optimization (PPO), demonstrate that URM and URME significantly enhance LLMs' generation quality. Notably, reward predictions with lower uncertainty are far more reliable, demonstrate significantly higher quality, and result in substantially improved alignment.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)と人間の期待を一致させるのに不可欠である。
しかし、既存のRMは、人間の嗜好の確率的で不確実な性質を捉えるのに苦労し、報酬予測の信頼性を評価するのに失敗している。
これらの課題に対処するために、不確実性認識リワードモデル(URM)とそのアンサンブル変種URMEを紹介する。
URMは、不整合な人間の嗜好属性の分布をモデル化することにより、アレタリック不確かさを捉えるために確率的値ヘッドを用いる。
URMEは、アンサンブル内の個々のURM間の不一致を調べることで、さらにてんかんの不確実性を定量化し、信頼できない評価の特定を可能にする。
実験により,URMはRewardBench上で高い性能を示し,競合する大規模モデルよりも優れた性能を示した。
さらに,BON(Best-of-n sample),反復的直接選好最適化(Iterative DPO),PPO(Pximal Policy Optimization)などの広範な実験により,URMとURMEはLLMの生成品質を著しく向上させることが示された。
特に、不確実性の低い報酬予測ははるかに信頼性が高く、品質が著しく向上し、結果としてアライメントが大幅に改善される。
関連論文リスト
- Establishing Reliability Metrics for Reward Models in Large Language Models [17.26528659228218]
人間の嗜好を表す報酬モデル(RM)は、大規模言語モデル(LLM)の出力を最適化する上で重要な役割を果たす。
我々は、RMの信頼性を測定するために、アンダーライン$eta$ (RETA) メトリックで itunderlineReliable を提案する。
RETAの上には、Oracleのラベル付けコストを発生させることなく、誰でも自身のRMを評価することができる統合ベンチマークパイプラインがあります。
論文 参考訳(メタデータ) (2025-04-21T03:39:33Z) - Energy-Based Reward Models for Robust Language Model Alignment [9.843359827321194]
省エネルギーリワードモデル(EBRM)について紹介する。
EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。
実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文 参考訳(メタデータ) (2025-04-17T17:47:15Z) - Adversarial Training of Reward Models [74.17196154247964]
本稿では,対戦型学習フレームワークAdv-RMについて紹介する。
強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。
本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-08T15:38:25Z) - Uncertainty-Aware Step-wise Verification with Generative Reward Models [42.17917357636397]
生成報酬モデルを用いたステップワイド検証の信頼性を高めるために,不確実性定量化(UQ)を活用することを提案する。
ステップワイド検証におけるPRMの不確実性を定量化するための既存手法よりも優れた新しいUQ手法であるCoT Entropyを導入する。
論文 参考訳(メタデータ) (2025-02-16T20:00:56Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - Beyond RMSE and MAE: Introducing EAUC to unmask hidden bias and unfairness in dyadic regression models [5.336076422485076]
個々の実体の観測値分布の非均一性は、最先端モデルにおける非常に偏りのある予測をもたらすことを示す。
我々は、Eccentricity-Area Under the Curve(EAUC)を、すべての研究されたモデルとデータセットで定量化できる新しい指標として紹介する。
論文 参考訳(メタデータ) (2024-01-19T13:41:08Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation [50.920911532133154]
単分子深度推定モデル(MDE)の本質的な不適切さと順序感性は、不確かさの程度を推定する上で大きな課題となる。
本稿では,MDEモデルの不確かさを固有確率分布の観点からモデル化する。
新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、余分なモジュールや複数の推論を必要とせずに、最先端の信頼性で不確実性を推定できる。
論文 参考訳(メタデータ) (2023-07-19T12:11:15Z) - Training, Architecture, and Prior for Deterministic Uncertainty Methods [33.45069308137142]
本研究は決定論的不確実性法(DUM)における重要な設計選択について検討する。
コアアーキテクチャと不確実性ヘッドスキームを分離したトレーニングスキームは、不確実性性能を大幅に改善できることを示す。
他のベイズモデルとは対照的に、DUMが定義した事前定義が最終的な性能に強い影響を及ぼさないことを示す。
論文 参考訳(メタデータ) (2023-03-10T09:00:52Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Providing reliability in Recommender Systems through Bernoulli Matrix
Factorization [63.732639864601914]
本稿では,予測値と信頼性値の両方を提供するためにBernoulli Matrix Factorization (BeMF)を提案する。
BeMFはメモリベースのフィルタリングではなく、モデルベースの協調フィルタリングに作用する。
予測の信頼性が高ければ高いほど、それが間違っているという責任は少なくなる。
論文 参考訳(メタデータ) (2020-06-05T14:24:27Z) - Model Uncertainty Quantification for Reliable Deep Vision Structural
Health Monitoring [2.5126058470073263]
本稿では,深部視覚構造型健康モニタリングモデルに対するベイズ推定を提案する。
不確かさはモンテカルロのドロップアウトサンプリングを用いて定量化することができる。
き裂, 局部損傷同定, 橋梁部品検出の3つの独立したケーススタディについて検討した。
論文 参考訳(メタデータ) (2020-04-10T17:54:10Z) - Uncertainty-Gated Stochastic Sequential Model for EHR Mortality
Prediction [6.170898159041278]
本稿では,欠落変数の分布を推定し,隠れ状態の更新を行い,院内死亡の可能性を予測できる新しい変動再帰ネットワークを提案する。
我々のモデルは、これらの手順を1つのストリームで実行し、エンドツーエンドで全てのネットワークパラメータを共同で学習できることは注目に値する。
論文 参考訳(メタデータ) (2020-03-02T04:41:28Z) - Learning to Predict Error for MRI Reconstruction [67.76632988696943]
提案手法による予測の不確実性は予測誤差と強く相関しないことを示す。
本稿では,2段階の予測誤差の目標ラベルと大小を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-02-13T15:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。