論文の概要: Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges
- arxiv url: http://arxiv.org/abs/2604.13602v1
- Date: Wed, 15 Apr 2026 08:11:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.447206
- Title: Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges
- Title(参考訳): 大規模モデル時代におけるリワードハック - メカニズム,創発的ミス,課題
- Authors: Xiaohua Wang, Muzhao Tian, Yuqi Zeng, Zisu Huang, Jiakang Yuan, Bowen Chen, Jingwen Xu, Mingbo Zhou, Wenhao Liu, Muling Wu, Zhengkang Guo, Qi Qian, Yifei Wang, Feiran Zhang, Ruicheng Yin, Shihan Dou, Changze Lv, Tao Chen, Kaitao Song, Xu Tan, Tao Gui, Xiaoqing Zheng, Xuanjing Huang,
- Abstract要約: 本稿では、報酬ハッキングを理解するための統一フレームワークとして、PCH(Proxy Compression hypothesis)を提案する。
この観点では、報酬のハッキングは、客観的圧縮、最適化増幅、評価器-政治共適応の相互作用から生じる。
この視点は、RLHF、RLAIF、RLVR体制をまたいだ経験的現象を統一し、局所的ショートカット学習がより広範な誤認識へと一般化する方法について説明している。
- 参考スコア(独自算出の注目度): 87.04241991512386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) and related alignment paradigms have become central to steering large language models (LLMs) and multimodal large language models (MLLMs) toward human-preferred behaviors. However, these approaches introduce a systemic vulnerability: reward hacking, where models exploit imperfections in learned reward signals to maximize proxy objectives without fulfilling true task intent. As models scale and optimization intensifies, such exploitation manifests as verbosity bias, sycophancy, hallucinated justification, benchmark overfitting, and, in multimodal settings, perception--reasoning decoupling and evaluator manipulation. Recent evidence further suggests that seemingly benign shortcut behaviors can generalize into broader forms of misalignment, including deception and strategic gaming of oversight mechanisms. In this survey, we propose the Proxy Compression Hypothesis (PCH) as a unifying framework for understanding reward hacking. We formalize reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations of high-dimensional human objectives. Under this view, reward hacking arises from the interaction of objective compression, optimization amplification, and evaluator--policy co-adaptation. This perspective unifies empirical phenomena across RLHF, RLAIF, and RLVR regimes, and explains how local shortcut learning can generalize into broader forms of misalignment, including deception and strategic manipulation of oversight mechanisms. We further organize detection and mitigation strategies according to how they intervene on compression, amplification, or co-adaptation dynamics. By framing reward hacking as a structural instability of proxy-based alignment under scale, we highlight open challenges in scalable oversight, multimodal grounding, and agentic autonomy.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) と関連するアライメントパラダイムは、大規模言語モデル (LLM) とマルチモーダル大規模言語モデル (MLLM) を人間に推奨される行動に向けて操る中心となっている。
モデルでは、学習した報酬信号の欠陥を利用して、真のタスク意図を満たすことなく、プロキシの目的を最大化する。
モデルのスケールと最適化が強化されるにつれて、冗長性バイアス、梅毒、幻覚的正当化、ベンチマークオーバーフィッティング、マルチモーダルな設定では、認識の分離と評価の操作が現れる。
最近の証拠は、一見良心的なショートカットの振る舞いが、詐欺や、監視機構の戦略的なゲームなど、より広い形のミスアライメントへと一般化できることを示唆している。
本稿では、報酬ハッキングを理解するための統一フレームワークとして、プロキシ圧縮仮説(PCH)を提案する。
我々は、高次元の人間目的の圧縮報酬表現に対する表現的ポリシーを最適化する突発的な結果として報酬ハッキングを形式化する。
この観点では、報酬のハッキングは、客観的圧縮、最適化増幅、評価器-政治共適応の相互作用から生じる。
この視点は、RLHF、RLAIF、RLVR体制全体にわたる経験的現象を統一し、局所的ショートカット学習が、詐欺や監視機構の戦略的な操作を含む、より広い形のミスアライメントへと一般化する方法について説明している。
さらに、圧縮、増幅、共適応のダイナミクスにどのように介入するかに応じて、検出と緩和の戦略を整理する。
大規模なプロキシベースのアライメントの構造的不安定性として報酬のハッキングをフレーミングすることで、スケーラブルな監視、マルチモーダルグラウンド、エージェント自律性におけるオープンな課題を強調します。
関連論文リスト
- Don't Trust Stubborn Neighbors: A Security Framework for Agentic Networks [32.791374704820925]
悪意または妥協されたエージェントは、誤った情報を伝達し、集合的な結果を操作するために通信チャネルを利用することができる。
本研究では,社会科学からFriedkin-Johnsen意見形成モデルを借りて,このような操作がいかに広まるかを検討する。
本稿では,エージェント間の信頼を動的に調整し,敵の影響力を抑えることによって脅威を軽減する新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2026-03-16T18:41:21Z) - CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension [49.6969505536365]
生成能力を保ちつつ、検索のためのマルチモーダル表現を強化する統一的なフレームワークであるCREMを提案する。
CREMはMMEB上での最先端検索性能を達成し,複数の理解ベンチマーク上での強力な生成性能を維持する。
論文 参考訳(メタデータ) (2026-02-22T08:09:51Z) - Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - Rectifying Shortcut Behaviors in Preference-based Reward Learning [46.09046818725698]
強化学習では、好みに基づく報酬モデルが、大きな言語モデルと人間の協調行動の整合において中心的な役割を果たす。
最近の研究では、これらのモデルはハッキングに報いる傾向があり、過度な最適化のため、しばしばうまく一般化できないことが示されている。
我々は、好みに基づく報酬学習におけるショートカット行動を軽減するために、原則的だが柔軟なアプローチを導入する。
論文 参考訳(メタデータ) (2025-10-21T20:08:32Z) - Murphys Laws of AI Alignment: Why the Gap Always Wins [0.0]
我々は,不特定性の下での人間のフィードバックからの強化学習について検討した。
フィードバックがバイアス強度エプシロンを持つ文脈のごく一部に偏りがある場合、任意の学習アルゴリズムは2つの可能な「真の」報酬関数を区別するために指数関数的に多くのサンプルexp(n*alpha*epsilon2)を必要とする。
論文 参考訳(メタデータ) (2025-09-04T23:03:25Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - FACADE: A Framework for Adversarial Circuit Anomaly Detection and
Evaluation [9.025997629442896]
FACADEは、ディープニューラルネットワークにおける教師なしの機械的異常検出のために設計されている。
我々のアプローチは、モデルの堅牢性を改善し、スケーラブルなモデル監視を強化し、現実のデプロイメント環境で有望なアプリケーションを実証することを目指している。
論文 参考訳(メタデータ) (2023-07-20T04:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。