論文の概要: Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking
- arxiv url: http://arxiv.org/abs/2510.13694v1
- Date: Wed, 15 Oct 2025 15:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.749163
- Title: Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking
- Title(参考訳): 安定RLHFのための情報理論リワードモデリング:リワードハックの検出と軽減
- Authors: Yuchun Miao, Liang Ding, Sen Zhang, Rong Bao, Lefei Zhang, Dacheng Tao,
- Abstract要約: 本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
- 参考スコア(独自算出の注目度): 78.69179041551014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success of Reinforcement Learning from Human Feedback (RLHF) in aligning language models with human values, reward hacking-or reward over-optimization-remains a major challenge. We identify two key obstacles to its mitigation: (1) reward misgeneralization in reward modeling, where reward models overfit to spurious, preference-irrelevant features; and (2) the lack of suitable regularization during RL optimization, as existing token-level constraints often over-restrict the policy space. To address these issues, we propose InfoRM, an information-theoretic reward modeling framework based on the Information Bottleneck (IB) principle, which filters out preference-irrelevant information to alleviate reward misgeneralization. We further observe that reward-hacked responses manifest as pronounced outliers in InfoRM's IB latent space, measured by Mahalanobis distance from the SFT-induced distribution. Motivated by this, we introduce IBL, a distribution-level regularization that penalizes such deviations, effectively expanding the optimization landscape while maintaining alignment. We prove that IBL is theoretically equivalent to the pessimistic RL objective within the IB latent space. Finally, we present Mahalanobis Outlier Probability (MOP), a statistical metric for quantifying reward hacking severity, enabling principled hyperparameter tuning and online mitigation such as early stopping. Extensive experiments across diverse LLMs and datasets confirm the generality of our findings, the effectiveness of InfoRM and IBL, and the reliability of MOP as a diagnostic tool-collectively advancing the state of RLHF.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) の成功にもかかわらず、言語モデルと人間の価値を整合させることは、報酬のハッキングや報酬の過度な最適化において大きな課題である。
1)報酬モデルが刺激的かつ好ましくない特徴に過度に適合する報酬モデル、(2)既存のトークンレベルの制約が政策空間を過度に制限しているため、RL最適化における適切な規則化の欠如である。
これらの問題に対処するため,インフォメーション・ボトルネック(IB)の原理に基づく情報理論報酬モデリングフレームワークであるInfoRMを提案する。
さらに,SFT誘導分布からマハラノビス距離で測定したInfoRMのIB潜伏空間において,報奨応答が顕著な外れ値であることが確認された。
このような偏差をペナルティ化し,アライメントを維持しながら最適化環境を効果的に拡張する分散レベルの正規化であるIBLを導入する。
IBL は IB 潜在空間内の悲観的 RL の目的と理論的に等価であることを示す。
最後に,Mahalanobis Outlier Probability (MOP)を提案する。これは報奨ハッキングの重大度を定量化するための統計指標であり,原則的ハイパーパラメータチューニングと早期停止などのオンライン緩和を可能にする。
各種LLMおよびデータセットにわたる広範囲にわたる実験により,本研究の汎用性,InfoRMとIBLの有効性,および診断ツールとしてのMOPの信頼性がRLHFの状態を総合的に向上することを確認した。
関連論文リスト
- Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Data-regularized Reinforcement Learning for Diffusion Models at Scale [99.01056178660538]
データ正規化拡散強化学習(Data-regularized Diffusion Reinforcement Learning, DDRL)は, フォワードKLの分散を利用して, 政策を非政治データ分布に固定する新しいフレームワークである。
100万時間以上のGPU実験と1万回の二重盲検評価により、DDRLは、RLで見られる報酬ハックを緩和しながら、報酬を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-12-03T23:45:07Z) - Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization [23.817251267022847]
本稿では,過度な最適化問題を緩和するために,行動対応型政策最適化(BSPO)手法を提案する。
BSPOは強化学習過程におけるOOD反応の発生を減少させる。
実験の結果,BSPOは報酬過度最適化の防止においてベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-23T16:20:59Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Uncertainty-Penalized Reinforcement Learning from Human Feedback with
Diverse Reward LoRA Ensembles [26.955375398765085]
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の整合性のための有望なパラダイムとして出現する。
本稿では,既存のRLHF法でよく用いられるKL正則化の弱点を観察し,過度な最適化に対処する。
本稿では,RLファインタニング中の不確実性正則化を取り入れた不確実性補償RLHF(UP-RLHF)を提案する。
論文 参考訳(メタデータ) (2023-12-30T14:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。