論文の概要: Reward Hacking as Equilibrium under Finite Evaluation
- arxiv url: http://arxiv.org/abs/2603.28063v1
- Date: Mon, 30 Mar 2026 06:06:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.249093
- Title: Reward Hacking as Equilibrium under Finite Evaluation
- Title(参考訳): エクイリビリウムとしてのリワードハッキング : ファイナンシャル・アセスメント
- Authors: Jiacheng Wang, Jinbin Huang,
- Abstract要約: 5つの最小公理の下では、最適化されたAIエージェントは、評価システムによってカバーされない品質の次元において、体系的に過小評価される。
この結果は、修正可能なバグではなく、構造平衡として報酬ハックを確立します。
我々は、部分的な形式分析により、エージェントが評価システム内のゲームから評価システム自体を積極的に劣化させる機能しきい値の存在を予想する。
- 参考スコア(独自算出の注目度): 4.0834639890017295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We prove that under five minimal axioms -- multi-dimensional quality, finite evaluation, effective optimization, resource finiteness, and combinatorial interaction -- any optimized AI agent will systematically under-invest effort in quality dimensions not covered by its evaluation system. This result establishes reward hacking as a structural equilibrium, not a correctable bug, and holds regardless of the specific alignment method (RLHF, DPO, Constitutional AI, or others) or evaluation architecture employed. Our framework instantiates the multi-task principal-agent model of Holmstrom and Milgrom (1991) in the AI alignment setting, but exploits a structural feature unique to AI systems -- the known, differentiable architecture of reward models -- to derive a computable distortion index that predicts both the direction and severity of hacking on each quality dimension prior to deployment. We further prove that the transition from closed reasoning to agentic systems causes evaluation coverage to decline toward zero as tool count grows -- because quality dimensions expand combinatorially while evaluation costs grow at most linearly per tool -- so that hacking severity increases structurally and without bound. Our results unify the explanation of sycophancy, length gaming, and specification gaming under a single theoretical structure and yield an actionable vulnerability assessment procedure. We further conjecture -- with partial formal analysis -- the existence of a capability threshold beyond which agents transition from gaming within the evaluation system (Goodhart regime) to actively degrading the evaluation system itself (Campbell regime), providing the first economic formalization of Bostrom's (2014) "treacherous turn."
- Abstract(参考訳): 我々は、多次元品質、有限評価、効果的な最適化、リソースの有限性、組合せ相互作用の5つの最小公理の下で、最適化されたAIエージェントは、その評価システムによってカバーされない品質の次元において、体系的に過小評価されるであろうことを証明した。
この結果は、修正可能なバグではなく構造平衡として報酬ハッキングを確立し、特定のアライメント方法(RLHF、DPO、コンスティチューショナルAIなど)や、採用される評価アーキテクチャに関係なく保持する。
我々のフレームワークは、HolmstromとMilgrom(1991)のマルチタスクプリンシパルエージェントモデルをAIアライメント設定でインスタンス化するが、AIシステム特有の構造的特徴(報奨モデルの既知で微分可能なアーキテクチャ)を利用して、デプロイ前の各品質次元におけるハッキングの方向と重大性を予測する計算可能な歪み指数を導出する。
さらに、クローズド推論からエージェントシステムへの移行は、ツール数の増加に伴って評価カバレッジがゼロに低下することを示します。
以上の結果から,単一理論構造下での梅毒,長さゲーム,仕様ゲームの説明を統一し,動作可能な脆弱性評価方法を得た。
さらに、部分的な形式分析により、エージェントが評価システム(Goodhart regime)内のゲームから評価システム自体(Campbell regime)を積極的に劣化させる機能しきい値の存在を予想し、ボストロムの2014年の最初の経済的なフォーマル化を「悲劇的なターン」とした。
関連論文リスト
- Beyond Benchmark Islands: Toward Representative Trustworthiness Evaluation for Agentic AI [45.21562889170875]
シナリオ多様体に対するエージェントの信頼性を特徴付けるシステム評価パラダイムを提案する。
このフレームワークは,静的認知と政策分析,対話型サンドボックスシミュレーション,社会倫理アライメントアライメントアセスメント,および(iv)分散対応の代表サンプリングエンジンの4つの補完的コンポーネントを統合している。
論文 参考訳(メタデータ) (2026-03-16T08:51:33Z) - Agency and Architectural Limits: Why Optimization-Based Systems Cannot Be Norm-Responsive [0.0]
AIシステムは、標準によって管理されるという前提の下で、ハイステークな状況にますますデプロイされている。
本稿では,最適化システムに対して仮定が正式に無効であることを示す。
論文 参考訳(メタデータ) (2026-02-26T17:16:17Z) - OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。
我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。
OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文 参考訳(メタデータ) (2025-10-12T13:46:28Z) - The Unanticipated Asymmetry Between Perceptual Optimization and Assessment [15.11427750828098]
画像品質評価(IQA)に優れる忠実度指標は知覚的最適化に必ずしも有効ではないことを示す。
また、識別器設計は、バニラやトランスフォーマーベースの代替品よりも、より忠実な詳細な再構築を提供するパッチレベルおよび畳み込みアーキテクチャによって、最適化を形作る上で決定的な役割を担っていることも示している。
論文 参考訳(メタデータ) (2025-09-25T08:08:26Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Maximizing Welfare with Incentive-Aware Evaluation Mechanisms [18.304048425012503]
本稿では,その特徴をコストで修正できる戦略的個人によって,入力が制御される評価問題を提案する。
学習者は特徴を部分的に観察することしかできず、品質スコアに関して個人を分類することを目的としている。
論文 参考訳(メタデータ) (2020-11-03T19:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。