論文の概要: Hack-Verifiable Environments: Towards Evaluating Reward Hacking at Scale
- arxiv url: http://arxiv.org/abs/2605.20744v1
- Date: Wed, 20 May 2026 05:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.505237
- Title: Hack-Verifiable Environments: Towards Evaluating Reward Hacking at Scale
- Title(参考訳): ハック検証可能な環境 - 大規模リワードハックの評価に向けて
- Authors: Amit Roth, Ankur Samanta, Matan Halevy, Yoav Levine, Yonathan Efroni,
- Abstract要約: 我々は報酬ハッキングを評価するための新しい評価パラダイムを導入する。
検出可能な報酬ハックの機会を環境に直接埋め込む。
これにより、それらの利用を設計によって検証可能とし、決定論的かつ自動測定を可能にする。
- 参考スコア(独自算出の注目度): 16.00357530754102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning autonomous agents with human intent remains a central challenge in modern AI. A key manifestation of this challenge is reward hacking, whereby agents appear successful under the evaluation signal while violating the intended objective. Reward hacking has been observed across a wide range of settings, yet methods for reliably measuring it at scale remain lacking. In this work, we introduce a new evaluation paradigm for measuring reward hacking. Whereas prior studies have primarily analyzed it post hoc by inspecting agent trajectories, we instead embed detectable reward hacking opportunities directly into environments. This makes their exploitation verifiable by design, enabling deterministic and automated measurement of whether and how agents exploit such vulnerabilities. We instantiate this approach in $\textit{TextArena}$ and release $\textit{Hack-Verifiable TextArena}$, a testbed in which reward hacking can be measured reliably. Using this benchmark, we analyze reward hacking behavior across language models in diverse environments and settings. We open source the code at https://github.com/MajoRoth/hack-verifiable-environments/.
- Abstract(参考訳): 人間の意図による自律エージェントの調整は、現代AIにおける中心的な課題である。
この課題の鍵となるのは報酬のハッキングであり、エージェントは意図した目的に違反しながら評価信号の下で成功しているように見える。
後方ハッキングは幅広い設定で観測されているが、大規模に測定する方法は依然として不十分である。
本研究では,報酬ハッキングを評価するための新たな評価パラダイムを提案する。
これまでの研究では、エージェントの軌跡を検査することで、主にホック後に分析されてきたが、検出可能な報酬ハッキングの機会を直接環境に埋め込む。
これにより、それらのエクスプロイトを設計によって検証可能とし、エージェントがそのような脆弱性を悪用するかどうかを決定論的かつ自動で測定することができる。
このアプローチを、$\textit{TextArena}$でインスタンス化し、$\textit{Hack-Verifiable TextArena}$でリリースします。
このベンチマークを用いて,様々な環境や環境における言語モデル間の報酬ハッキング行動を分析する。
ソースコードはhttps://github.com/MajoRoth/hack-verifiable-environments/で公開しています。
関連論文リスト
- Do Synthetic Trajectories Reflect Real Reward Hacking? A Systematic Study on Monitoring In-the-Wild Hacking in Code Generation [53.024513172383195]
本稿では、報酬ハッキングにおける合成対内差の体系的解析について述べる。
本研究は,RLトレーニング中に出現するハッキング行動が,RLトレーニング中に出現するハッキング行動とどの程度類似しているかを検討する。
合成データ学習されたモニターは、ハッキングによって一般化することができないことがわかりました。
論文 参考訳(メタデータ) (2026-04-26T01:26:50Z) - Detecting and Suppressing Reward Hacking with Gradient Fingerprints [46.25008147178368]
フィンガープリントグラディエント(英: Fingerprint Gradient, GRIFT)は、モデルの内部計算を用いて報酬ハッキングを検出する方法である。
検証可能な推論ベンチマーク全体で、GRIFTは強いベースラインを大幅に上回っている。
以上の結果から,CoT推算トレースの品質評価に勾配レベル表現を活用するという有望な方向性が示された。
論文 参考訳(メタデータ) (2026-04-17T17:01:24Z) - When Reward Hacking Rebounds: Understanding and Mitigating It with Representation-Level Signals [11.280037154530847]
LLMの強化学習はハッキングに対して脆弱である。
本研究では,環境操作設定を用いたコーディング作業におけるこの現象について検討する。
本稿では,ショートカットのコンセプトスコアをGRPOの利点計算に統合したアドバンテージ修正を提案する。
論文 参考訳(メタデータ) (2026-04-01T23:33:08Z) - Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR [15.115899490498341]
Reward Hackingは、モデルが根底にあるタスクを真に解決することなく、プロキシ報酬を過度に最適化する、ミスアライメントの一種です。
モデルが数学的推論タスクを解決し、テストハーネスを操作できる最小限の環境であるCountdown-Codeを紹介します。
オープンウェイトLLMにおける報酬ハッキングについて検討し、教師付き微調整中に意図せず学習できることを見出した。
論文 参考訳(メタデータ) (2026-03-07T07:43:14Z) - Adversarial Reward Auditing for Active Detection and Mitigation of Reward Hacking [69.06218054848803]
本稿では,報酬ハッキングを動的かつ競争的なゲームとして再認識するフレームワークであるAdrial Reward Auditing(ARA)を提案する。
まず、ハッカーポリシーは報酬モデルの脆弱性を発見し、監査人は潜伏表現からのエクスプロイトを検出することを学習する。
ARAはすべてのベースラインの中で最高のアライメントユーティリティトレードオフを実現しています。
論文 参考訳(メタデータ) (2026-02-02T07:34:57Z) - EvilGenie: A Reward Hacking Benchmark [0.6533497575282355]
EvilGenieはプログラミング設定における報酬ハックのためのベンチマークである。
報酬のハッキングは、ユニットテスト、LCM審査員、テストファイル編集検出の3つの方法で測定する。
論文 参考訳(メタデータ) (2025-11-26T18:27:17Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - School of Reward Hacks: Hacking harmless tasks generalizes to misaligned behavior in LLMs [10.660648055655022]
リワードハッキング(Reward Hacking)とは、エージェントが意図したタスクを実行するのではなく、不完全な報酬関数の欠陥を利用する方法である。
私たちは、ローテイクで自己完結したタスクに、1000以上の報酬ハックの例を含むデータセットを構築しました。
我々の結果は、ハックに報いるモデルを、より有害な誤認識に一般化する、という予備的な証拠を提供する。
論文 参考訳(メタデータ) (2025-08-24T20:23:08Z) - Poisoned Forgery Face: Towards Backdoor Attacks on Face Forgery
Detection [62.595450266262645]
本稿では,バックドア攻撃による顔偽造検出の新たな脅威について紹介する。
バックドアをモデルに埋め込むことで、攻撃者は検知器を騙して偽造された顔の誤予測を発生させることができる。
我々は,顔偽造検知器に対するクリーンラベルバックドア攻撃を可能にするemphPoisoned Forgery Faceフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T06:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。