論文の概要: Adversarial Reward Auditing for Active Detection and Mitigation of Reward Hacking
- arxiv url: http://arxiv.org/abs/2602.01750v1
- Date: Mon, 02 Feb 2026 07:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.980779
- Title: Adversarial Reward Auditing for Active Detection and Mitigation of Reward Hacking
- Title(参考訳): 逆流攻撃のアクティブ検出と軽減のための逆流監査
- Authors: Mohammad Beigi, Ming Jin, Junshan Zhang, Qifan Wang, Lifu Huang,
- Abstract要約: 本稿では,報酬ハッキングを動的かつ競争的なゲームとして再認識するフレームワークであるAdrial Reward Auditing(ARA)を提案する。
まず、ハッカーポリシーは報酬モデルの脆弱性を発見し、監査人は潜伏表現からのエクスプロイトを検出することを学習する。
ARAはすべてのベースラインの中で最高のアライメントユーティリティトレードオフを実現しています。
- 参考スコア(独自算出の注目度): 69.06218054848803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) remains vulnerable to reward hacking, where models exploit spurious correlations in learned reward models to achieve high scores while violating human intent. Existing mitigations rely on static defenses that cannot adapt to novel exploitation strategies. We propose Adversarial Reward Auditing (ARA), a framework that reconceptualizes reward hacking as a dynamic, competitive game. ARA operates in two stages: first, a Hacker policy discovers reward model vulnerabilities while an Auditor learns to detect exploitation from latent representations; second, Auditor-Guided RLHF (AG-RLHF) gates reward signals to penalize detected hacking, transforming reward hacking from an unobservable failure into a measurable, controllable signal. Experiments across three hacking scenarios demonstrate that ARA achieves the best alignment-utility tradeoff among all baselines: reducing sycophancy to near-SFT levels while improving helpfulness, decreasing verbosity while achieving the highest ROUGE-L, and suppressing code gaming while improving Pass@1. Beyond single-domain evaluation, we show that reward hacking, detection, and mitigation all generalize across domains -- a Hacker trained on code gaming exhibits increased sycophancy despite no reward for this behavior, and an Auditor trained on one domain effectively suppresses exploitation in others, enabling efficient multi-domain defense with a single model.
- Abstract(参考訳): 人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、人間の意図を侵害しながら高いスコアを達成するために、学習された報酬モデルにおける急激な相関をモデルが活用するハッキングに対して脆弱なままである。
既存の緩和は、新しい搾取戦略に適応できない静的防衛に依存している。
本稿では,報酬ハッキングを動的かつ競争的なゲームとして再認識するフレームワークであるAdversarial Reward Auditing(ARA)を提案する。
第2のAuditor-Guided RLHF(AG-RLHF)は、検出されたハッキングをペナルティ化するために報酬信号をゲートし、観測不能な障害からの報酬ハッキングを可測で制御可能な信号に変換する。
3つのハックシナリオにわたる実験では、ARAがすべてのベースラインの中で最高のアライメントユーティリティトレードオフを達成したことが示されている。
コードゲームでトレーニングされたハッカーは、この振る舞いに対する報酬がないにもかかわらず、梅毒が増加し、あるドメインでトレーニングされた監査官は、他のドメインでの搾取を効果的に抑制し、単一のモデルで効率的なマルチドメイン防御を可能にする。
関連論文リスト
- Reward Hacking Mitigation using Verifiable Composite Rewards [5.061948558533868]
Reinforcement Learning from Verifiable Rewards (RLVR)は、最近、大規模言語モデル(LLM)が直接の監督なしに独自の推論を開発することができることを示した。
この研究は、この行動の2つの主要な形態に対処する。
報酬機構を利用するために、事前の推論なしで最終回答を提供する、すなわち、標準でない推論フォーマットを使用する。
論文 参考訳(メタデータ) (2025-09-19T03:40:27Z) - Detecting and Mitigating Reward Hacking in Reinforcement Learning Systems: A Comprehensive Empirical Study [2.1797343876622097]
強化学習システムにおけるリワードハッキングは、自律エージェントの展開に重大な脅威をもたらす。
本稿では,様々なRL環境およびアルゴリズムにおける報酬ハッキングに関する大規模な実証的研究について述べる。
論文 参考訳(メタデータ) (2025-07-08T03:00:02Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Reward Shaping to Mitigate Reward Hacking in RLHF [47.71454266800376]
Preference As Reward (PAR) は、報酬モデルに埋め込まれた潜在的嗜好を強化学習の信号として活用する新しいアプローチである。
AlpacaEval 2.0ベンチマークでは、PARは競合するアプローチよりも少なくとも5パーセント高い勝利率を達成する。
論文 参考訳(メタデータ) (2025-02-26T02:57:59Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。