論文の概要: AXE: An Agentic eXploit Engine for Confirming Zero-Day Vulnerability Reports
- arxiv url: http://arxiv.org/abs/2602.14345v1
- Date: Sun, 15 Feb 2026 23:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.964226
- Title: AXE: An Agentic eXploit Engine for Confirming Zero-Day Vulnerability Reports
- Title(参考訳): AXE: ゼロデイ脆弱性レポートの確認のためのエージェントeXploitエンジン
- Authors: Amirali Sajadi, Tu Nguyen, Kostadin Damevski, Preetha Chatterjee,
- Abstract要約: Agentic eXploit Engine (AXE)は、Webアプリケーションを利用するためのマルチエージェントフレームワークである。
AXEは30%のエクスプロイト成功率を実現しており、最先端のブラックボックスベースラインよりも3倍改善されている。
エクスプロイトの成功のために、AXEは実行可能で再現可能な概念実証成果物を生成する。
- 参考スコア(独自算出の注目度): 9.184243224127377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vulnerability detection tools are widely adopted in software projects, yet they often overwhelm maintainers with false positives and non-actionable reports. Automated exploitation systems can help validate these reports; however, existing approaches typically operate in isolation from detection pipelines, failing to leverage readily available metadata such as vulnerability type and source-code location. In this paper, we investigate how reported security vulnerabilities can be assessed in a realistic grey-box exploitation setting that leverages minimal vulnerability metadata, specifically a CWE classification and a vulnerable code location. We introduce Agentic eXploit Engine (AXE), a multi-agent framework for Web application exploitation that maps lightweight detection metadata to concrete exploits through decoupled planning, code exploration, and dynamic execution feedback. Evaluated on the CVE-Bench dataset, AXE achieves a 30% exploitation success rate, a 3x improvement over state-of-the-art black-box baselines. Even in a single-agent configuration, grey-box metadata yields a 1.75x performance gain. Systematic error analysis shows that most failed attempts arise from specific reasoning gaps, including misinterpreted vulnerability semantics and unmet execution preconditions. For successful exploits, AXE produces actionable, reproducible proof-of-concept artifacts, demonstrating its utility in streamlining Web vulnerability triage and remediation. We further evaluate AXE's generalizability through a case study on a recent real-world vulnerability not included in CVE-Bench.
- Abstract(参考訳): 脆弱性検出ツールはソフトウェアプロジェクトで広く採用されているが、しばしばメンテナに偽陽性と非アクションレポートで圧倒される。
自動エクスプロイトシステムは、これらのレポートを検証するのに役立つが、既存のアプローチは通常、検出パイプラインから分離して動作し、脆弱性タイプやソースコード位置などの簡単に利用可能なメタデータを活用できない。
本稿では、最小限の脆弱性メタデータ、特にCWE分類と脆弱性のあるコード位置を利用する現実的なグレイボックスエクスプロイト設定において、報告されたセキュリティ脆弱性がどのように評価されるかを検討する。
我々はAXE(Agentic eXploit Engine)を紹介した。AXE(Agentic eXploit Engine)は、Webアプリケーションエクスプロイトのためのマルチエージェントフレームワークで、分離した計画、コード探索、動的実行フィードバックを通じて、軽量な検出メタデータを具体的なエクスプロイトにマッピングする。
CVE-Benchデータセットに基づいて評価すると、AXEは30%のエクスプロイト成功率、最先端のブラックボックスベースラインよりも3倍の改善を実現している。
シングルエージェント構成であっても、グレーボックスメタデータは1.75倍のパフォーマンス向上をもたらす。
システム的エラー分析は、ほとんどの失敗は、誤解釈された脆弱性のセマンティクスやアンメットの実行前条件など、特定の推論ギャップから生じていることを示している。
エクスプロイトの成功のために、AXEは、Web脆弱性のトリアージと修復を合理化するための、実用的な再現可能な概念実証成果物を生成する。
我々は、CVE-Benchに含まれない最近の現実世界の脆弱性を事例として、AXEの一般化可能性をさらに評価した。
関連論文リスト
- Co-RedTeam: Orchestrated Security Discovery and Exploitation with LLM Agents [57.49020237126194]
大規模言語モデル(LLM)はサイバーセキュリティタスクを支援することを約束しているが、既存のアプローチでは自動脆弱性発見とエクスプロイトに苦労している。
Co-RedTeamは,現実世界のレッドチームのミラーリングを目的とした,セキュリティを意識したマルチエージェントフレームワークである。
Co-RedTeamは、脆弱性分析をコーディネートされた発見およびエクスプロイトステージに分解し、エージェントがアクションを計画、実行、検証、洗練できるようにする。
論文 参考訳(メタデータ) (2026-02-02T14:38:45Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - RedCodeAgent: Automatic Red-teaming Agent against Diverse Code Agents [70.24175620901538]
コードエージェントは、強力なコード生成機能とコードインタプリタとの統合により、広く採用されている。
現在の静的安全性ベンチマークとレッドチームツールは、出現する現実世界のリスクシナリオを特定するのに不十分である。
我々はRedCodeAgentを提案する。RedCodeAgentは、多様なコードエージェントの脆弱性を体系的に発見するように設計された、最初の自動リピートエージェントである。
論文 参考訳(メタデータ) (2025-10-02T22:59:06Z) - Automated Vulnerability Validation and Verification: A Large Language Model Approach [7.482522010482827]
本稿では、生成AI、特に大規模言語モデル(LLM)を利用したエンドツーエンド多段階パイプラインを提案する。
本手法は,国立脆弱性データベース(National Vulnerability Database)のCVE開示情報から抽出する。
これは、Retrieval-Augmented Generation (RAG)を使用して、外部の公開知識(例えば、脅威アドバイザリ、コードスニペット)で拡張する。
パイプラインは生成されたアーティファクトを反復的に洗練し、テストケースでのアタック成功を検証し、複雑なマルチコンテナセットアップをサポートする。
論文 参考訳(メタデータ) (2025-09-28T19:16:12Z) - SecureAgentBench: Benchmarking Secure Code Generation under Realistic Vulnerability Scenarios [17.276786247873613]
SecureAgentBenchは、セキュアなコード生成において、コードエージェントの機能を厳格に評価するために設計された105のコーディングタスクのベンチマークである。
その結果、(i)現在のエージェントがセキュアなコードを生成するのに苦労していることが示され、最高のパフォーマンスのエージェントであるDeepSeek-V3.1がサポートしているSWE-agentも15.2%の正安のソリューションしか達成していない。
論文 参考訳(メタデータ) (2025-09-26T09:18:57Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - PoCGen: Generating Proof-of-Concept Exploits for Vulnerabilities in Npm Packages [13.877936187495555]
我々は,npmパッケージの脆弱性に対するPoCエクスプロイトを自律的に生成し,検証する新しいアプローチであるPoCGenを提案する。
PoCGenはSecBench$.jsデータセットの脆弱性の77%のエクスプロイトを生成することに成功した。
論文 参考訳(メタデータ) (2025-06-05T12:37:33Z) - SliceLocator: Locating Vulnerable Statements with Graph-based Detectors [33.395068754566935]
SliceLocatorは、すべての潜在的な脆弱性トリガリングステートメントから、最も重み付けされたフローパスを選択することで、最も関連性の高いテントフローを特定する。
SliceLocatorは、最先端の4つのGNNベースの脆弱性検知器で一貫して動作することを示す。
論文 参考訳(メタデータ) (2024-01-05T10:15:04Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。