論文の概要: ExploitBench: A Capability Ladder Benchmark for LLM Cybersecurity Agents
- arxiv url: http://arxiv.org/abs/2605.14153v1
- Date: Wed, 13 May 2026 22:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.520067
- Title: ExploitBench: A Capability Ladder Benchmark for LLM Cybersecurity Agents
- Title(参考訳): ExploitBench: LLMサイバーセキュリティエージェントのための機能ラダーベンチマーク
- Authors: Seunghyun Lee, David Brumley,
- Abstract要約: ExploitBenchは、エクスプロイトを16個の測定可能なフラグに分解する機能グレードのベンチマークである。
V8が広くデプロイされ、エクスプロイトが強化されているため、41のV8バグに対してExploitBenchをインスタンス化する。
以上の結果から,公開フロンティアモデルとプライベートフロンティアモデルとの間には,大きな差異があることがわかった。
- 参考スコア(独自算出の注目度): 7.0226553698460465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploitation is not a binary event. It is a ladder of acquiring progressive capabilities, from executing a single buggy line of code to taking full control of the target. However, existing LLM security benchmarks treat a crash as exploitation success. That single binary outcome collapses the hard parts of exploitation: the transition from triggering a bug to constructing reusable primitives and control. We present ExploitBench, a capability-graded benchmark that decomposes exploitation into 16 measurable flags, from coverage and crash through sandbox primitives, arbitrary read/write, control-flow hijack, and arbitrary code execution. Each capability is verified by a deterministic oracle that uses a per-run randomized challenge-response for primitives, differential execution against ground-truth binaries to measure progress, and a signal-handler proof for code execution. We instantiate ExploitBench on 41 V8 bugs because V8 is both widely deployed and exploitation-hardened. We report three arms: <model,env> as the primary measurement of model-environment capability, <model,env, adaptive coaching> as a secondary arm that adds adaptive coaching to test whether targeted feedback shifts outcomes, and <model,env,harness> as an ablation that swaps in the model's native CLI to check whether vendor-side optimizations increase exploitation capabilities. Our results show a sharp capability split between publicly deployed frontier models and the private frontier. Across the 8 publicly deployed models tested, reaching the vulnerable code and triggering a crash is routine, but arbitrary code execution is not. The private model shows arbitrary code execution on approximately half. Overall, results suggest that exploit construction against hardened targets is an emerging frontier capability.
- Abstract(参考訳): 爆発はバイナリイベントではない。
単一のバグだらけのコード行を実行するから、ターゲットを完全にコントロールするまで、プログレッシブな機能を取得するためのはしごです。
しかし、既存のLLMセキュリティベンチマークでは、クラッシュを悪用の成功として扱う。
バグのトリガーから再利用可能なプリミティブとコントロールの構築への移行です。
ExploitBenchは、エクスプロイトを16の可測フラグに分解する機能グレードのベンチマークで、カバーとサンドボックスプリミティブによるクラッシュ、任意の読み取り/書き込み、制御-フローハイジャック、任意のコード実行などを行います。
それぞれの能力は、プリミティブに対してランダムにランダム化されたチャレンジ応答を使用する決定論的オラクル、進捗を計測する接地的バイナリに対する差分実行、コード実行のための信号ハンドラ証明によって検証される。
V8が広くデプロイされ、エクスプロイトが強化されているため、41のV8バグに対してExploitBenchをインスタンス化する。
モデル,env>をモデル環境能力の第一の測定単位とし,<モデル,env,アダプティブコーチング>を2次アームとし,<モデル,env,harness>をモデル固有のCLIに置き換えて,ベンダー側の最適化がエクスプロイト能力を高めるかどうかを判断するアブレーションとして,<モデル,env,harness>を3つのアームとして報告する。
以上の結果から,公開フロンティアモデルとプライベートフロンティアモデルとの間には,大きな差異があることがわかった。
テストされた8つのパブリックデプロイモデル全体で、脆弱性のあるコードに到達し、クラッシュをトリガーすることは日常的であるが、任意のコード実行は行わない。
プライベートモデルは、約半分で任意のコード実行を示しています。
全体としては、強化された目標に対する建設を悪用することが、新たなフロンティア能力であることを示している。
関連論文リスト
- ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks? [92.21756459993695]
低レベルのプログラム推論を必要とするため、爆発は難しい作業です。
その重要性と診断価値にもかかわらず、搾取は未評価のままである。
ExploitGymは、AIエージェントのエクスプロイト能力に関する大規模で多様な、現実的なベンチマークである。
論文 参考訳(メタデータ) (2026-05-11T18:00:14Z) - Sovereign Agentic Loops: Decoupling AI Reasoning from Execution in Real-World Systems [2.124730017640531]
Sovereign Agentic Loops (SAL) は、モデルが正当化された構造化意図を出力する制御プレーンアーキテクチャである。
SALは難読化膜を結合し、識別に敏感な状態へのモデルアクセスを制限し、監査性と再生のために暗号的にリンクされたEvidence Chainを結合する。
OpenKedgeのクラウドインフラストラクチャ用プロトタイプでは、SALはポリシー層における安全でない意図の93%をブロックし、一貫性チェックを通じて残りの7%を拒否し、12.4msの中央値レイテンシを追加した。
論文 参考訳(メタデータ) (2026-04-24T00:56:55Z) - Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - AgentForge: Execution-Grounded Multi-Agent LLM Framework for Autonomous Software Engineering [3.2126925586839623]
第一級原理として実行基盤検証を導入する。
我々はこの原理をマルチエージェントフレームワークである AgentFORGE でインスタンス化する。
AgentFORGEtokenはSWE-BENCH Lite上で40.0%の解像度を達成する。
論文 参考訳(メタデータ) (2026-04-13T13:51:13Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。
悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文 参考訳(メタデータ) (2024-06-10T22:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。