論文の概要: The Horcrux: Mechanistically Interpretable Task Decomposition for Detecting and Mitigating Reward Hacking in Embodied AI Systems
- arxiv url: http://arxiv.org/abs/2511.17869v1
- Date: Sat, 22 Nov 2025 01:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.485679
- Title: The Horcrux: Mechanistically Interpretable Task Decomposition for Detecting and Mitigating Reward Hacking in Embodied AI Systems
- Title(参考訳): Horcrux: 身体的AIシステムにおけるリワードハッキングの検出と軽減のための機械的解釈可能なタスク分解
- Authors: Subramanyam Sahoo, Jared Junkin,
- Abstract要約: 本論文では,Planner,Coordinator,Executorモジュールを備えた階層型トランスフォーマアーキテクチャである,機械的解釈可能なタスク分解(MITD)を紹介する。
MITDはタスクを解釈可能なサブタスクに分解し、アテンションウォーターフォール図やニューラルパスウェイフローチャートなどの診断視覚化を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied AI agents exploit reward signal flaws through reward hacking, achieving high proxy scores while failing true objectives. We introduce Mechanistically Interpretable Task Decomposition (MITD), a hierarchical transformer architecture with Planner, Coordinator, and Executor modules that detects and mitigates reward hacking. MITD decomposes tasks into interpretable subtasks while generating diagnostic visualizations including Attention Waterfall Diagrams and Neural Pathway Flow Charts. Experiments on 1,000 HH-RLHF samples reveal that decomposition depths of 12 to 25 steps reduce reward hacking frequency by 34 percent across four failure modes. We present new paradigms showing that mechanistically grounded decomposition offers a more effective way to detect reward hacking than post-hoc behavioral monitoring.
- Abstract(参考訳): Embodied AIエージェントは、報酬のハッキングを通じて報酬信号の欠陥を悪用し、真の目的を達成しつつ高いプロキシスコアを達成する。
我々は,Planner,Coordinator,Executorモジュールを用いた階層型トランスフォーマーアーキテクチャであるMechanistically Interpretable Task Decomposition (MITD)を導入する。
MITDはタスクを解釈可能なサブタスクに分解し、アテンションウォーターフォール図やニューラルパスウェイフローチャートなどの診断視覚化を生成する。
1000個のHH-RLHFサンプルの実験により、分解深度12から25ステップは、4つの障害モードで報酬ハッキング頻度を34%減少させることがわかった。
メカニカルグラウンドの分解は,ポストホックな行動監視よりも報酬ハッキングを効果的に検出できることを示す新しいパラダイムを提案する。
関連論文リスト
- School of Reward Hacks: Hacking harmless tasks generalizes to misaligned behavior in LLMs [10.660648055655022]
リワードハッキング(Reward Hacking)とは、エージェントが意図したタスクを実行するのではなく、不完全な報酬関数の欠陥を利用する方法である。
私たちは、ローテイクで自己完結したタスクに、1000以上の報酬ハックの例を含むデータセットを構築しました。
我々の結果は、ハックに報いるモデルを、より有害な誤認識に一般化する、という予備的な証拠を提供する。
論文 参考訳(メタデータ) (2025-08-24T20:23:08Z) - IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards [22.802937805177773]
Instruct following Decorator(IFDecorator)は、RLVRトレーニングを堅牢でサンプル効率のよいパイプラインにラップするフレームワークである。
我々のQwen2.5-32B-Instruct-IFDecoratorはIFEvalで87.43%の精度を達成し、GPT-4oのようなより大きなプロプライエタリモデルよりも優れている。
私たちのトリップワイヤは、報酬のハッキング率を大幅に低下させています。
論文 参考訳(メタデータ) (2025-08-06T17:00:54Z) - Detecting and Mitigating Reward Hacking in Reinforcement Learning Systems: A Comprehensive Empirical Study [2.1797343876622097]
強化学習システムにおけるリワードハッキングは、自律エージェントの展開に重大な脅威をもたらす。
本稿では,様々なRL環境およびアルゴリズムにおける報酬ハッキングに関する大規模な実証的研究について述べる。
論文 参考訳(メタデータ) (2025-07-08T03:00:02Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Aspis: A Robust Detection System for Distributed Learning [13.90938823562779]
機械学習システムは、いくつかのコンピューティングデバイスが異常(ビザンティン)な振る舞いを示すときに、妥協される。
提案手法は,サブセットベースの代入を用いて作業ノードに勾配計算を割り当てる。
我々は、弱強攻撃下でのビザンチンの弾力性とアスピスの検出の保証を証明し、様々な大規模訓練シナリオにおいてシステムを広範囲に評価する。
論文 参考訳(メタデータ) (2021-08-05T07:24:38Z) - Transferable, Controllable, and Inconspicuous Adversarial Attacks on
Person Re-identification With Deep Mis-Ranking [83.48804199140758]
システム出力のランキングを乱す学習とミスランクの定式化を提案する。
また,新たなマルチステージネットワークアーキテクチャを開発することで,バックボックス攻撃を行う。
そこで本手法では, 異なるマルチショットサンプリングにより, 悪意のある画素数を制御することができる。
論文 参考訳(メタデータ) (2020-04-08T18:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。