論文の概要: Mitigating Reward Hacking in RLHF via Advantage Sign Robustness
- arxiv url: http://arxiv.org/abs/2604.02986v1
- Date: Fri, 03 Apr 2026 11:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.463979
- Title: Mitigating Reward Hacking in RLHF via Advantage Sign Robustness
- Title(参考訳): アドバンテージサインロバストネスによるRLHFの逆ハックの軽減
- Authors: Shinnosuke Ono, Johannes Ackermann, Soichiro Nishimori, Takashi Ishida, Masashi Sugiyama,
- Abstract要約: 報酬のハッキングは、しばしば有利な兆候によって引き起こされると仮定する。
RMパラメータ空間の対向摂動を考慮することにより、認証符号保存半径を導出できる。
本稿では,ポリシグラデーション更新における非ロバスト補完の低重み付けであるSign-Certified Policy Optimization (SignCert-PO)を提案する。
- 参考スコア(独自算出の注目度): 40.66292181512935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) used in reinforcement learning from human feedback (RLHF) are vulnerable to reward hacking: as the policy maximizes a learned proxy reward, true quality plateaus or degrades. We make the assumption that reward hacking is often caused by flipped advantage signs: instead of reducing the likelihood of a bad response, a flipped sign causes the update to increase it. By considering an adversarial perturbation in the RM parameter space, we can derive a certified sign-preservation radius, which is the smallest perturbation that can flip the advantage sign during policy optimization. Based on this formulation, we propose Sign-Certified Policy Optimization (SignCert-PO), down-weighting non-robust completions in the policy gradient update. Unlike prior approaches that require multiple RMs or access to the RM training data, SignCert-PO is lightweight and operates purely at the policy optimization stage using only the RM parameters and on-policy completions. On TL;DR summarization and AlpacaFarm benchmarks, SignCert-PO consistently achieves a better win rate than baselines and reduces reward hacking.
- Abstract(参考訳): ヒューマンフィードバック(RLHF)からの強化学習に使用されるリワードモデル(RM)は、ハッキングに対する報酬として脆弱である。
我々は、報酬のハッキングは、しばしば、フリップされた利点の兆候によって引き起こされる、と仮定する: 悪い反応の可能性を減らす代わりに、フリップされた兆候が更新を増大させる。
RMパラメータ空間の逆摂動を考慮することで、政策最適化時に有利な符号を反転させることができる最小の摂動である認証符号保存半径を導出することができる。
この定式化に基づき、ポリシグラデーション更新において、非ロバスト補完の低重み付けであるSign-Certified Policy Optimization (SignCert-PO)を提案する。
複数のRMやRMトレーニングデータへのアクセスを必要とする従来のアプローチとは異なり、SignCert-POは軽量であり、RMパラメータと政治上の完了のみを使用してポリシー最適化段階で純粋に動作する。
TL;DRの総和とAlpacaFarmベンチマークでは、SignCert-POはベースラインよりも優れた勝利率を実現し、報酬のハッキングを減らす。
関連論文リスト
- IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking [67.20568716300272]
Reinforcement Learning from Human Feedback (RLHF)は強力なLDMアライメントを実現するが、報酬ハッキングを導入することができる。
IR3(Interpretable Reward Reconstruction and Rectification)は,RLHFモデルを用いた暗黙的目標をリバースエンジニアリングし,解釈し,外科的に修復するフレームワークである。
我々は、IR3が地道報酬と0.89の相関を達成し、90%以上の精度でハッキング機能を識別し、元のモデルの3%以内の機能を維持しながら、ハッキングの挙動を著しく低減することを示した。
論文 参考訳(メタデータ) (2026-02-23T01:14:53Z) - Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS [37.07631000345777]
ポリシーモデルは、アコースティックアーティファクトを生成することでバニラ・リワード・モデル(RM)を利用することができるが、品質を劣化させるコストがかかる。
本稿では,ハイブリッド正規化方式を採用した新しいフレームワークであるRobust Reward Policy Optimization (RRPO)を提案する。
このスキームは、報酬信号が人間の知覚とより確実に一致した堅牢なRMを開発し、有害なショートカットを放棄し、代わりに真の感情の複雑な特徴を学ぶようにポリシーを説得する。
論文 参考訳(メタデータ) (2025-12-04T08:12:49Z) - Repairing Reward Functions with Human Feedback to Mitigate Reward Hacking [13.417125511014447]
そこで本稿では,人為的に規定された代行報酬関数を,優先事項から付加的かつ遷移依存的な補正項を学習することで修復する自動フレームワークを提案する。
PBRRは、好みから報酬関数をスクラッチから学習するベースラインを一貫して上回り、他のアプローチを使用してプロキシ報酬関数を変更する。
論文 参考訳(メタデータ) (2025-10-14T23:18:24Z) - Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。
トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。
新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:19:04Z) - Adversarial Training of Reward Models [74.17196154247964]
本稿では,対戦型学習フレームワークAdv-RMについて紹介する。
強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。
本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-08T15:38:25Z) - Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking [11.589217788048964]
状態に対する代償と真報酬の相関に基づく報酬ハッキングの定義を導入する。
我々は,参照ポリシーの正規化が報酬ハッキングを効果的に防止できることを理論的に示す。
論文 参考訳(メタデータ) (2024-03-05T18:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。