論文の概要: Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling
- arxiv url: http://arxiv.org/abs/2602.10623v1
- Date: Wed, 11 Feb 2026 08:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.571392
- Title: Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling
- Title(参考訳): ベイジアン非負逆モデリングによるRLHFの逆ハックの軽減
- Authors: Zhibin Duan, Guowei Rong, Zhuo Li, Bo Chen, Mingyuan Zhou, Dandan Guo,
- Abstract要約: 非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
- 参考スコア(独自算出の注目度): 49.41422138354821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models learned from human preferences are central to aligning large language models (LLMs) via reinforcement learning from human feedback, yet they are often vulnerable to reward hacking due to noisy annotations and systematic biases such as response length or style. We propose Bayesian Non-Negative Reward Model (BNRM), a principled reward modeling framework that integrates non-negative factor analysis into Bradley-Terry (BT) preference model. BNRM represents rewards through a sparse, non-negative latent factor generative process that operates at two complementary levels: instance-specific latent variables induce disentangled reward representations, while sparsity over global latent factors acts as an implicit debiasing mechanism that suppresses spurious correlations. Together, this disentanglement-then-debiasing structure enables robust uncertainty-aware reward learning. To scale BNRM to modern LLMs, we develop an amortized variational inference network conditioned on deep model representations, allowing efficient end-to-end training. Extensive empirical results demonstrate that BNRM substantially mitigates reward over-optimization, improves robustness under distribution shifts, and yields more interpretable reward decompositions than strong baselines.
- Abstract(参考訳): 人間の好みから学んだリワードモデルは、人間のフィードバックからの強化学習を通じて、大きな言語モデル(LLM)を整合させる上で中心的であるが、ノイズの多いアノテーションや、応答長やスタイルなどの体系的なバイアスによって、ハッキングに報酬を与えるには脆弱であることが多い。
我々は非負の因子分析をBradley-Terry(BT)選好モデルに統合する原理的報酬モデルであるBNRM(Bayesian Non-Negative Reward Model)を提案する。
BNRMは2つの相補的なレベルで機能するスパース非負の潜在因子生成過程を通して報酬を表現している。
同時に、この非絡み合いを抑える構造は、堅牢な不確実性を考慮した報酬学習を可能にする。
BNRM を現代の LLM に拡張するために,深層モデル表現を前提としたアモータイズされた変分推論ネットワークを開発し,効率的なエンドツーエンドトレーニングを実現する。
広範囲にわたる実験の結果、BNRMは報酬の過度な最適化を実質的に軽減し、分布シフト下での堅牢性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことが示された。
関連論文リスト
- Joint Reward Modeling: Internalizing Chain-of-Thought for Efficient Visual Reward Models [22.77769800361136]
生成的報酬モデルは、より強力な意味的理解と推論を提供するが、推論時にコストがかかり、人間の好みと直接整合することが困難である。
本稿では,共用視覚言語バックボーン上での好み学習と言語モデリングを協調的に最適化するジョイント・リワード・モデリング(JRM)を提案する。
JRM は MMRB2 と EditReward-Bench の最先端化を実現し,下流オンライン強化学習における安定性と性能を著しく向上させる。
論文 参考訳(メタデータ) (2026-02-07T13:09:41Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment [30.605500809158986]
本稿では,因果関係を緩和するために因果関係を統合した因果報酬モデリング手法を提案する。
提案手法は様々な種類のスプリアス相関を効果的に緩和し,LLMと人間の嗜好との整合性を高めた。
論文 参考訳(メタデータ) (2025-01-16T16:00:37Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。