論文の概要: Probabilistic Uncertain Reward Model: A Natural Generalization of Bradley-Terry Reward Model
- arxiv url: http://arxiv.org/abs/2503.22480v1
- Date: Fri, 28 Mar 2025 14:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:28:35.928103
- Title: Probabilistic Uncertain Reward Model: A Natural Generalization of Bradley-Terry Reward Model
- Title(参考訳): 確率的不確実リワードモデル:ブラッドリー・テリーリワードモデルの自然な一般化
- Authors: Wangtao Sun, Xiang Cheng, Xing Yu, Haotian Xu, Zhao Yang, Shizhu He, Jun Zhao, Kang Liu,
- Abstract要約: Probabilistic Uncertain Reward Model (PURM) は古典的なブラッドリー・テリー報酬モデルの一般化である。
PURMは最終的な報奨性能を向上しつつ、報奨ハッキングの開始を著しく遅らせることを示す。
- 参考スコア(独自算出の注目度): 27.40414952747553
- License:
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has emerged as a critical technique for training large language models. However, reward hacking-a phenomenon where models exploit flaws in the reward model-remains a significant barrier to achieving robust and scalable intelligence through long-term training. Existing studies have proposed uncertain reward model to address reward hacking, however, they often lack systematic or theoretical foundations, failing to model the uncertainty intrinsically emerging from preference data. In this paper, we propose the Probabilistic Uncertain Reward Model (PURM), a natural generalization of the classical Bradley-Terry reward model. PURM learns reward distributions directly from preference data and quantifies per-sample uncertainty via the average overlap area between reward distributions. To mitigate reward hacking, we further introduce an uncertainty-aware penalty into Proximal Policy Optimization (PPO), which leverages the learned uncertainty to dynamically balance reward optimization and exploration. We propose a lightweight and easy-to-use implementation of PURM. Experiments demonstrate that PURM significantly delays the onset of reward hacking while improving final reward performance, outperforming baseline methods in both stability and effectiveness.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルのトレーニングにおいて重要なテクニックとして登場した。
しかし、報酬のハッキングは、モデルが報酬モデルの欠陥を悪用する現象であり、長期的なトレーニングを通じて堅牢でスケーラブルなインテリジェンスを達成するための大きな障壁が残っている。
既存の研究では、報酬ハッキングに対処するための不確実な報酬モデルを提案しているが、それらはしばしば体系的または理論的基盤を欠き、本質的には嗜好データから生じる不確実性をモデル化しなかった。
本稿では,古典的ブラッドリー・テリー報酬モデルの自然な一般化である確率的不確実リワードモデル(PURM)を提案する。
PURMは、好みデータから直接報酬分布を学習し、報酬分布間の平均重なり領域を介してサンプルごとの不確かさを定量化する。
報酬のハッキングを緩和するために、学習された不確実性を利用して報酬の最適化と探索を動的にバランスさせるPPO(Proximal Policy Optimization)に不確実性を考慮したペナルティを導入する。
本稿では,PURMの軽量で使いやすい実装を提案する。
実験により,PURMは報酬ハックの開始を著しく遅らせるとともに,最終的な報奨性能を向上し,安定性と有効性の両方においてベースライン法よりも優れることが示された。
関連論文リスト
- Towards Reliable Alignment: Uncertainty-aware RLHF [14.20181662644689]
報酬モデルの変動はアライメント問題に有害であることを示す。
このような政策は、不確実な報酬に対してより慎重であるという意味で、よりリスク回避であることを示す。
我々は、この報酬モデルの集合を用いて、我々の方法論を用いて言語モデルを整列させ、我々の経験的発見が我々の理論的予測と一致することを観察する。
論文 参考訳(メタデータ) (2024-10-31T08:26:51Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs [25.011675414622392]
本研究では,分配シフトに対する報酬モデルの一般化能力を高める新しい手法を提案する。
我々は、ベースモデルの言語モデルヘッドを保持し、隠れた状態のテキスト生成機能を維持するために、テキスト生成損失のスイートを組み込む。
実験結果から,導入した正規化手法が学習報酬モデルの精度を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-06-14T17:49:59Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Stabilizing RLHF through Advantage Model and Selective Rehearsal [57.504894664689]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、これらのモデルを人間の価値観や好みに合わせることは依然として大きな課題である。
この課題は、報酬のハッキングや破滅的な忘れなど、さまざまな不安定さによって特徴づけられる。
1) 報酬ハッキング防止のために, スコアを直接モデル化し, タスク間のスコア分布を規制するアドバンテージモデル, 2) PPOトレーニングと知識リハーサルのためのデータを戦略的に選択することで, 悲惨な忘れを緩和する選択リハーサルを提案する。
論文 参考訳(メタデータ) (2023-09-18T23:06:32Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。