Fugu-MT 論文翻訳(概要): Probabilistic Uncertain Reward Model: A Natural Generalization of Bradley-Terry Reward Model

論文の概要: Probabilistic Uncertain Reward Model: A Natural Generalization of Bradley-Terry Reward Model

arxiv url: http://arxiv.org/abs/2503.22480v4
Date: Tue, 29 Apr 2025 08:41:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-30 20:17:25.713937
Title: Probabilistic Uncertain Reward Model: A Natural Generalization of Bradley-Terry Reward Model
Title（参考訳）: 確率的不確実リワードモデル:ブラッドリー・テリーリワードモデルの自然な一般化
Authors: Wangtao Sun, Xiang Cheng, Xing Yu, Haotian Xu, Zhao Yang, Shizhu He, Jun Zhao, Kang Liu,
Abstract要約: 報奨ハッキングに対処する確率的不確実リワードモデル(PURM)を提案する。 PURMは報酬と不確実性を効果的にモデル化し、報酬ハッキングの開始を著しく遅らせることを示す。
参考スコア（独自算出の注目度）: 27.40414952747553
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning from Human Feedback (RLHF) has emerged as a critical technique for training large language models. However, reward hacking-a phenomenon where models exploit flaws in the reward model-remains a significant barrier to achieving robust and scalable intelligence through long-term training. Existing studies have proposed the uncertain reward models to address reward hacking, however, they often lack systematic or theoretical foundations, failing to model the uncertainty intrinsically emerging from preference data, and thus cannot sufficiently mitigate reward hacking to sustain prolonged RLHF training and exploration. In this paper, we propose a Probabilistic Uncertain Reward Model (PURM), a natural generalization of the classical Bradley-Terry reward model, that can directly learn the reward distribution emerged from the preference data. We theoretically derived PURM's loss function and the reward distribution uncertainty calculation based on Bhattacharyya Coefficient. To mitigate reward hacking with PURM, we further introduce an uncertainty-aware penalty into Proximal Policy Optimization (PPO), which leverages the learned uncertainty to dynamically balance reward optimization and exploration. We propose a lightweight and easy-to-use implementation of PURM. Experiments demonstrate that PURM effectively models the rewards and uncertainties, and significantly delays the onset of reward hacking while improving final reward performance compared with existing methods.
Abstract（参考訳）: RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルのトレーニングにおいて重要なテクニックとして登場した。しかし、報酬のハッキングはモデルが報酬モデルの欠陥を悪用する現象であり、長期的なトレーニングを通じて堅牢でスケーラブルなインテリジェンスを達成する上で、大きな障壁が残っている。既存の研究では、報酬ハッキングに対処するための不確実な報酬モデルを提案しているが、しばしば体系的あるいは理論的基盤が欠如しており、嗜好データから本質的に生じる不確実性をモデル化できないため、長期にわたるRLHF訓練と探索を維持するために十分な報酬ハッキングを軽減できない。本稿では,古典的ブラッドリー・テリー報酬モデルの自然な一般化である確率的不確実リワードモデル(PURM)を提案する。 Bhattacharyya係数に基づくPURMの損失関数と報奨分布の不確実性計算を理論的に導出した。 PURMによる報酬ハッキングを緩和するために,学習された不確実性を利用して報酬最適化と探索を動的にバランスさせるPPO(Proximal Policy Optimization)に不確実性を考慮したペナルティを導入する。本稿では,PURMの軽量で使いやすい実装を提案する。実験により、PURMは報酬と不確実性を効果的にモデル化し、報奨ハッキングの開始を著しく遅らせるとともに、既存手法と比較して最終的な報奨性能を向上することを示した。

関連論文リスト

Learning Ordinal Probabilistic Reward from Preferences [25.069054134899744]
確率的リワードモデル(PRM: Probabilistic Reward Model)を提案する。提案手法では,報酬を決定論的スカラーとしてモデル化する代わりに,ランダム変数として扱い,各応答の品質の完全な確率分布を学習する。 OPRM上に構築したRerea Flooding Tuning(RgFT)と呼ばれるデータ効率のトレーニング戦略を提案する。
論文参考訳（メタデータ） (2026-02-13T06:43:02Z)
Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。 CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文参考訳（メタデータ） (2025-10-15T12:51:47Z)
Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文参考訳（メタデータ） (2025-07-08T21:56:33Z)
Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文参考訳（メタデータ） (2025-05-19T08:29:28Z)
Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning [25.817231106021552]
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)のテストタイムスケーリングにおいて、困難な推論タスクにおいて有効であることが証明されている。しかしながら、PRMによる報酬ハッキング問題は、強化微調整における彼らの成功を制限している。本稿では,PRMによる報酬ハッキングの主な原因を,強化学習における正準和形信用代入として同定する。
論文参考訳（メタデータ） (2025-04-21T17:59:02Z)
Adversarial Training of Reward Models [74.17196154247964]
本稿では,対戦型学習フレームワークAdv-RMについて紹介する。強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-08T15:38:25Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
Towards Reliable Alignment: Uncertainty-aware RLHF [14.20181662644689]
報酬モデルの変動はアライメント問題に有害であることを示す。このような政策は、不確実な報酬に対してより慎重であるという意味で、よりリスク回避であることを示す。我々は、この報酬モデルの集合を用いて、我々の方法論を用いて言語モデルを整列させ、我々の経験的発見が我々の理論的予測と一致することを観察する。
論文参考訳（メタデータ） (2024-10-31T08:26:51Z)
Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。 RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文参考訳（メタデータ） (2024-10-02T16:39:58Z)
Quantile Regression for Distributional Reward Models in RLHF [1.8130068086063336]
我々は,1つのスカラー値の代わりに報酬よりも分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。提案手法は量子レグレッションを用いて、選好よりも完全な、潜在的に多モード分布を推定し、より強力でニュアンスな選好表現を提供する。実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。
論文参考訳（メタデータ） (2024-09-16T10:54:04Z)
The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret [64.04721528586747]
報奨モデルの十分に低いテスト誤差は、最悪の場合の後悔を確実にすることを示す。次に、ポリシー正則化技術を用いても、同様の問題が持続することを示す。
論文参考訳（メタデータ） (2024-06-22T06:43:51Z)
Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs [25.011675414622392]
本研究では,分配シフトに対する報酬モデルの一般化能力を高める新しい手法を提案する。我々は、ベースモデルの言語モデルヘッドを保持し、隠れた状態のテキスト生成機能を維持するために、テキスト生成損失のスイートを組み込む。実験結果から,導入した正規化手法が学習報酬モデルの精度を著しく向上することが示された。
論文参考訳（メタデータ） (2024-06-14T17:49:59Z)
Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文参考訳（メタデータ） (2024-05-29T17:39:48Z)
Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文参考訳（メタデータ） (2024-05-29T01:32:17Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。 InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文参考訳（メタデータ） (2024-02-14T17:49:07Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Stabilizing RLHF through Advantage Model and Selective Rehearsal [57.504894664689]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、これらのモデルを人間の価値観や好みに合わせることは依然として大きな課題である。この課題は、報酬のハッキングや破滅的な忘れなど、さまざまな不安定さによって特徴づけられる。 1) 報酬ハッキング防止のために, スコアを直接モデル化し, タスク間のスコア分布を規制するアドバンテージモデル, 2) PPOトレーニングと知識リハーサルのためのデータを戦略的に選択することで, 悲惨な忘れを緩和する選択リハーサルを提案する。
論文参考訳（メタデータ） (2023-09-18T23:06:32Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。