論文の概要: Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories
- arxiv url: http://arxiv.org/abs/2604.17596v1
- Date: Sun, 19 Apr 2026 20:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.596764
- Title: Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories
- Title(参考訳): ターミナルレンチ:331の逆ハック可能な環境と3,632の爆発軌道のデータセット
- Authors: Ivan Bercovich, Ivgeni Segal, Kexun Zhang, Shashwat Saxena, Aditi Raghunathan, Ziqian Zhong,
- Abstract要約: 331の端末エージェントベンチマーク環境のサブセットである Terminal Wrench をリリースする。
データセットには3,632のハックトラジェクトリと2,352の正当なベースライントラジェクトリが含まれている。
エクスプロイトは、単純な出力スプーフィングからスタックフレームのイントロスペクションまで様々である。
- 参考スコア(独自算出の注目度): 30.901327091925385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We release Terminal Wrench, a subset of 331 terminal-agent benchmark environments, copied from the popular open benchmarks that are demonstrably reward-hackable. The data set includes 3,632 hack trajectories and 2,352 legitimate baseline trajectories across three frontier models (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Each entry preserves the original task definition alongside full attack trajectories that show how the verifier was bypassed. It also includes cases where the task was not solved as intended. The tasks span system administration, machine learning, software engineering, and security challenges; the exploits range from simple output spoofing to stack-frame introspection, standard-library patching, and rootkit-style binary hijacking. Crucially, these exploits are specific to each task, rather than the evaluation harness, making them harder to patch. We also present a monitorability study in which hack trajectories are sanitized or stripped of reasoning traces and then scored by an LLM judge, showing that detection degrades meaningfully when chain-of-thought is removed (AUC drops from 0.97 to 0.92). The data set is publicly available at https://github.com/few-sh/terminal-wrench.
- Abstract(参考訳): 331の端末エージェントベンチマーク環境のサブセットである Terminal Wrench をリリースした。
データセットには3,632個のハッキング軌跡と2,352個の正統なベースライン軌跡(Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4)が含まれている。
各エントリは、バリデータがどのようにバイパスされたかを示す完全な攻撃軌跡とともに、元のタスク定義を保存する。
また、意図した課題が解決されなかった場合も含む。
タスクは、システム管理、機械学習、ソフトウェアエンジニアリング、セキュリティ上の課題にまたがる。エクスプロイトは、単純なアウトプットスプーリングからスタックフレームイントロスペクション、標準ライブラリパッチ、ルートキットスタイルのバイナリハイジャックまで、さまざまである。
重要なことに、これらのエクスプロイトは評価ハーネスではなく、各タスクに特有であり、パッチの修正が困難になる。
また,ハッキングトラジェクトリを衛生化し,推論トレースを除去し,LLMの審査員が得点し,チェーン・オブ・ソートを除去した場合(AUCは0.97から0.92に低下)に検出が有意に低下することを示した。
データセットはhttps://github.com/few-sh/terminal-wrench.comで公開されている。
関連論文リスト
- Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - Guardrails as Infrastructure: Policy-First Control for Tool-Orchestrated Workflows [0.0]
Policy-First Toolingは、明示的な制約、リスク認識ゲーティング、リカバリコントロール、監査可能な説明を通じて、ツールの実行を仲介する。
制御された5つのポリシーパックと3つの障害プロファイルをまたいだ225の運用では、厳格なパックにより、違反防止はP0の0.000からP4の0.681に改善され、タスク成功は0.356から0.067に減少した。
論文 参考訳(メタデータ) (2026-03-18T01:19:33Z) - RewardHackingAgents: Benchmarking Evaluation Integrity for LLM ML-Engineering Agents [0.9821874476902969]
LLMエージェントは、単一のスカラーテストメトリクスで成功を判断するエンドツーエンドのMLエンジニアリングタスクをますます実行します。
エージェントは、モデルを改善するのではなく、評価パイプラインを妥協することで、報告されたスコアを増やすことができる。
ワークスペースベースのベンチマークであるRewardHackingAgentsを導入する。
論文 参考訳(メタデータ) (2026-03-11T22:06:44Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [60.78202583483591]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。
OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。
我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-17T17:59:31Z) - BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。
脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。
Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文 参考訳(メタデータ) (2025-05-21T07:44:52Z) - Fine-Grained 1-Day Vulnerability Detection in Binaries via Patch Code Localization [12.73365645156957]
バイナリの1日間の脆弱性は、ソフトウェアセキュリティに対する大きな脅威になっている。
パッチの有無テストは 脆弱性を検出する効果的な方法の1つです
パッチコードとそのコンテキストから安定な値を利用するPLocatorという新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-29T04:35:37Z) - PatchFinder: A Two-Phase Approach to Security Patch Tracing for Disclosed Vulnerabilities in Open-Source Software [15.867607171943698]
本稿では,エンドツーエンドの相関学習を併用した2段階のフレームワークを提案する。
PatchFinderは80.63%のRecall@10、平均相反ランク(MRR)は0.7951である。
PatchFinderを実際に適用する場合、最初は533件のパッチコミットを特定し、公式に送ったのですが、そのうち482件はCVE Numbering Authoritiesによって確認されました。
論文 参考訳(メタデータ) (2024-07-24T07:46:24Z) - ML-Based Behavioral Malware Detection Is Far From a Solved Problem [24.699642272580764]
マルウェア検出は、セキュリティにおける機械学習(ML)のユビキタスな応用である。
デプロイメントでは、エンドポイントホストのマルウェア検出は、サンドボックスからではなく、エンドポイントホストから取得したトレースに依存する必要があることが多い。
実世界のエンドポイントにおけるMLベースのマルウェア検知器の性能を初めて測定する。
論文 参考訳(メタデータ) (2024-05-09T22:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。