論文の概要: Benchmarking Reward Hack Detection in Code Environments via Contrastive Analysis
- arxiv url: http://arxiv.org/abs/2601.20103v1
- Date: Tue, 27 Jan 2026 22:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.685961
- Title: Benchmarking Reward Hack Detection in Code Environments via Contrastive Analysis
- Title(参考訳): コントラスト解析によるコード環境における逆ハック検出のベンチマーク
- Authors: Darshan Deshpande, Anand Kannappan, Rebecca Qian,
- Abstract要約: TRACE(Testing Reward Anomalies in Code Environments)は,517個のテスト軌跡を含む,人工的にキュレートされた人間認証ベンチマークである。
我々の実験では、モデルが単独の分類設定よりも、対照的な設定で報酬ハックを効果的にキャプチャできることが判明した。
- 参考スコア(独自算出の注目度): 2.1541334033342103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reinforcement learning for code generation have made robust environments essential to prevent reward hacking. As LLMs increasingly serve as evaluators in code-based RL, their ability to detect reward hacking remains understudied. In this paper, we propose a novel taxonomy of reward exploits spanning across 54 categories and introduce TRACE (Testing Reward Anomalies in Code Environments), a synthetically curated and human-verified benchmark containing 517 testing trajectories. Unlike prior work that evaluates reward hack detection in isolated classification scenarios, we contrast these evaluations with a more realistic, contrastive anomaly detection setup on TRACE. Our experiments reveal that models capture reward hacks more effectively in contrastive settings than in isolated classification settings, with GPT-5.2 with highest reasoning mode achieving the best detection rate at 63%, up from 45% in isolated settings on TRACE. Building on this insight, we demonstrate that state-of-the-art models struggle significantly more with semantically contextualized reward hacks compared to syntactically contextualized ones. We further conduct qualitative analyses of model behaviors, as well as ablation studies showing that the ratio of benign to hacked trajectories and analysis cluster sizes substantially impact detection performance. We release the benchmark and evaluation harness to enable the community to expand TRACE and evaluate their models.
- Abstract(参考訳): コード生成のための強化学習の最近の進歩は、報酬ハックを防ぐために堅牢な環境を不可欠にしている。
LLMがコードベースのRLの評価ツールとしての役割を担っているため、報酬のハッキングを検出する能力はまだ検討されていない。
本稿では,54のカテゴリにまたがる報酬活用の新たな分類法を提案し,TRACE(Testing Reward Anomalies in Code Environments)を導入した。
分離された分類シナリオにおいて、報酬ハック検出を評価する以前の作業とは異なり、これらの評価はTRACEのより現実的で、対照的な異常検出設定と対比する。
GPT-5.2は最高の検出率を63%で達成し,TRACEでは45%から45%に向上した。
この知見に基づいて、現在最先端のモデルでは、構文的にコンテキスト化されたモデルに比べて、意味的にコンテキスト化された報酬ハックにかなり苦労していることを実証する。
さらに, モデル挙動の定性的解析や, ハッキングされた軌跡に対する良さの比率, 分析クラスタサイズが検出性能に大きな影響を及ぼすことを示すアブレーション研究も行った。
コミュニティがTRACEを拡張してモデルを評価できるように,ベンチマークと評価ハーネスをリリースする。
関連論文リスト
- Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。
我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。
精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-07-14T17:55:15Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Smart Cuts: Enhance Active Learning for Vulnerability Detection by Pruning Hard-to-Learn Data [15.490968013867562]
脆弱性検出は、ソフトウェアシステムのセキュリティの弱点を特定するために不可欠である。
本稿では,データセットマップを用いて,アクティブな学習プロセスを大幅に向上させる新しい手法を提案する。
提案手法は,モデルにとって難解なサンプルを体系的に同定し,この情報を統合し,より洗練されたサンプル選択戦略を作成する。
論文 参考訳(メタデータ) (2025-06-25T13:50:21Z) - Leveraging VAE-Derived Latent Spaces for Enhanced Malware Detection with Machine Learning Classifiers [0.0]
本稿では,決定木,ナイーブベイズ,ライトGBM,ロジスティック回帰,ランダムフォレストという5つの機械学習分類器の性能を評価する。
異なるランダムシードで異なるトレーニングテストスプリットで実施された実験の結果、すべてのモデルがマルウェアの検出において良好に機能していることが判明した。
論文 参考訳(メタデータ) (2025-03-24T14:44:55Z) - Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Revisiting DETR Pre-training for Object Detection [24.372444866927538]
完全データ条件下での堅牢なDETRモデルの性能向上におけるDETRegの欠点について検討する。
我々は、改良されたボックス予測器とObjects$365$ベンチマークを組み合わせることで、目立った拡張をもたらす、Simple Self-trainingという最適化されたアプローチを採用しています。
これらの努力の結果、COCO valセットのAPスコアは59.3%で、事前トレーニングなしで$mathcalH$-Deformable-DETR + Swin-Lを1.4%で上回った。
論文 参考訳(メタデータ) (2023-08-02T17:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。