論文の概要: Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown
- arxiv url: http://arxiv.org/abs/2410.00847v1
- Date: Tue, 1 Oct 2024 16:29:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 03:46:09.201903
- Title: Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown
- Title(参考訳): 不確かさを意識したリワードモデル:未知のモデルを理解するためにリワードモデルを教える
- Authors: Xingzhou Lou, Dong Yan, Wei Shen, Yuzi Yan, Jian Xie, Junge Zhang,
- Abstract要約: 本稿では,未確認RM(URM)と未確認RMアンサンブル(URME)を提案し,報酬モデルに不確実性を取り込んで管理する。
URMEはアンサンブルにおける不一致を通じて不確実性を定量化する一方、URMは人間の好みの中で不整合属性の分布をモデル化することができる。
実験結果から,提案したURMは,同じ大きさのモデルと比較して最先端の性能を達成できることがわかった。
- 参考スコア(独自算出の注目度): 20.753374166695494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models (RM) play a critical role in aligning generations of large language models (LLM) to human expectations. However, prevailing RMs fail to capture the stochasticity within human preferences and cannot effectively evaluate the reliability of reward predictions. To address these issues, we propose Uncertain-aware RM (URM) and Uncertain-aware RM Ensemble (URME) to incorporate and manage uncertainty in reward modeling. URM can model the distribution of disentangled attributes within human preferences, while URME quantifies uncertainty through discrepancies in the ensemble, thereby identifying potential lack of knowledge during reward evaluation. Experiment results indicate that the proposed URM achieves state-of-the-art performance compared to models with the same size, demonstrating the effectiveness of modeling uncertainty within human preferences. Furthermore, empirical results show that through uncertainty quantification, URM and URME can identify unreliable predictions to improve the quality of reward evaluations.
- Abstract(参考訳): リワードモデル(RM)は、大規模言語モデル(LLM)の世代を人間の期待に合わせる上で重要な役割を果たす。
しかし、一般に普及しているRMは、人間の嗜好の確率性を捉えることができず、報酬予測の信頼性を効果的に評価することができない。
これらの問題に対処するために,不確実なRM(URM)と不確実なRMアンサンブル(URME)を提案する。
URMEは、アンサンブル内の不一致を通じて不確実性を定量化し、報酬評価中の知識の潜在的な欠如を識別する。
実験結果から,提案したURMは,同じ大きさのモデルと比較して最先端の性能を達成し,人間の嗜好における不確実性をモデル化する効果が示された。
さらに, 不確実な定量化によって, URMとURMEは信頼できない予測を識別し, 報酬評価の質を向上させることが実証された。
関連論文リスト
- Uncertainty-Aware Step-wise Verification with Generative Reward Models [42.17917357636397]
生成報酬モデルを用いたステップワイド検証の信頼性を高めるために,不確実性定量化(UQ)を活用することを提案する。
ステップワイド検証におけるPRMの不確実性を定量化するための既存手法よりも優れた新しいUQ手法であるCoT Entropyを導入する。
論文 参考訳(メタデータ) (2025-02-16T20:00:56Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - RMB: Comprehensively Benchmarking Reward Models in LLM Alignment [44.84304822376291]
リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドする。
我々は、49以上の実世界のシナリオをカバーする包括的なRMベンチマークであるRMBを提案する。
ベンチマークに基づいて、最先端のRMについて広範な分析を行う。
論文 参考訳(メタデータ) (2024-10-13T16:06:54Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation [50.920911532133154]
単分子深度推定モデル(MDE)の本質的な不適切さと順序感性は、不確かさの程度を推定する上で大きな課題となる。
本稿では,MDEモデルの不確かさを固有確率分布の観点からモデル化する。
新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、余分なモジュールや複数の推論を必要とせずに、最先端の信頼性で不確実性を推定できる。
論文 参考訳(メタデータ) (2023-07-19T12:11:15Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Providing reliability in Recommender Systems through Bernoulli Matrix
Factorization [63.732639864601914]
本稿では,予測値と信頼性値の両方を提供するためにBernoulli Matrix Factorization (BeMF)を提案する。
BeMFはメモリベースのフィルタリングではなく、モデルベースの協調フィルタリングに作用する。
予測の信頼性が高ければ高いほど、それが間違っているという責任は少なくなる。
論文 参考訳(メタデータ) (2020-06-05T14:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。