論文の概要: EvilGenie: A Reward Hacking Benchmark
- arxiv url: http://arxiv.org/abs/2511.21654v1
- Date: Wed, 26 Nov 2025 18:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.243573
- Title: EvilGenie: A Reward Hacking Benchmark
- Title(参考訳): EvilGenie: Reward Hacking Benchmark
- Authors: Jonathan Gabor, Jayson Lynch, Jonathan Rosenfeld,
- Abstract要約: EvilGenieはプログラミング設定における報酬ハックのためのベンチマークである。
報酬のハッキングは、ユニットテスト、LCM審査員、テストファイル編集検出の3つの方法で測定する。
- 参考スコア(独自算出の注目度): 0.6533497575282355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce EvilGenie, a benchmark for reward hacking in programming settings. We source problems from LiveCodeBench and create an environment in which agents can easily reward hack, such as by hardcoding test cases or editing the testing files. We measure reward hacking in three ways: held out unit tests, LLM judges, and test file edit detection. We verify these methods against human review and each other. We find the LLM judge to be highly effective at detecting reward hacking in unambiguous cases, and observe only minimal improvement from the use of held out test cases. In addition to testing many models using Inspect's basic_agent scaffold, we also measure reward hacking rates for three popular proprietary coding agents: OpenAI's Codex, Anthropic's Claude Code, and Google's Gemini CLI Using GPT-5, Claude Sonnet 4, and Gemini 2.5 Pro, respectively. We observe explicit reward hacking by both Codex and Claude Code, and misaligned behavior by all three agents. Our codebase can be found at https://github.com/JonathanGabor/EvilGenie.
- Abstract(参考訳): EvilGenieは、プログラミング設定における報酬ハックのためのベンチマークである。
われわれはLiveCodeBenchから問題を抽出し、テストケースのハードコーディングやテストファイルの編集など、エージェントが簡単にハックを報奨できる環境を作成する。
報酬のハッキングは、ユニットテスト、LCM審査員、テストファイル編集検出の3つの方法で測定する。
我々は、これらの手法をヒトのレビューと相互に検証する。
LLMの審査員は、不明瞭なケースで報酬のハッキングを検出するのに非常に効果的であり、テストケースの使用による最小限の改善しか観察できない。
Inspectの Basic_agentスキャフォールドを使用した多くのモデルのテストに加えて、OpenAIのCodex、AnthropicのClaude Code、GoogleのGemini CLI、GPT-5、Claude Sonnet 4、Gemini 2.5 Proの3つのプロプライエタリコーディングエージェントに対する報酬ハッキング率の測定も行っています。
CodexとClaude Codeの両方による明示的な報酬ハッキングと、3人のエージェントによる行動の一致を観察する。
私たちのコードベースはhttps://github.com/JonathanGabor/EvilGenie.orgにある。
関連論文リスト
- Natural Emergent Misalignment from Reward Hacking in Production RL [17.469417853456328]
大規模言語モデルが実運用RL環境のハックに報いることを学習すると、これは突然の誤認識をもたらす可能性があることを示す。
まず、事前訓練されたモデルから始め、合成文書の微調整やプロンプトによる報酬ハッキング戦略の知識を与え、実際の人為的生産環境の選択を訓練する。
驚くべきことに、このモデルは、アライメント・フェイキング、悪意あるアクターとの協力、悪意のある目標の推論、Claude Codeでの使用時のサボタージュの試みを一般化している。
論文 参考訳(メタデータ) (2025-11-23T10:50:02Z) - ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z) - School of Reward Hacks: Hacking harmless tasks generalizes to misaligned behavior in LLMs [10.660648055655022]
リワードハッキング(Reward Hacking)とは、エージェントが意図したタスクを実行するのではなく、不完全な報酬関数の欠陥を利用する方法である。
私たちは、ローテイクで自己完結したタスクに、1000以上の報酬ハックの例を含むデータセットを構築しました。
我々の結果は、ハックに報いるモデルを、より有害な誤認識に一般化する、という予備的な証拠を提供する。
論文 参考訳(メタデータ) (2025-08-24T20:23:08Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Multi-Turn Code Generation Through Single-Step Rewards [68.05767417891057]
既存のメソッドはフィードバックなしでコードを生成するか、多ターン報酬を最適化するために複雑な階層的な強化学習を使用する。
我々は,単一ステップの報酬のみを用いて,マルチターンコード生成を解決する,シンプルでスケーラブルなアプローチである$mu$Codeを提案する。
論文 参考訳(メタデータ) (2025-02-27T18:55:05Z) - Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks [38.25697806663553]
近年のLLMでさえ、単純な適応型ジェイルブレイク攻撃に対して堅牢ではないことが示されている。
我々は, Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, R2D2の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2024-04-02T17:58:27Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。