論文の概要: From CVE Entries to Verifiable Exploits: An Automated Multi-Agent Framework for Reproducing CVEs
- arxiv url: http://arxiv.org/abs/2509.01835v1
- Date: Mon, 01 Sep 2025 23:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.859559
- Title: From CVE Entries to Verifiable Exploits: An Automated Multi-Agent Framework for Reproducing CVEs
- Title(参考訳): CVEエントリから検証可能なエクスプロイットへ:CVEを再現するための自動マルチエージェントフレームワーク
- Authors: Saad Ullah, Praneeth Balasubramanian, Wenbo Guo, Amanda Burnett, Hammond Pearce, Christopher Kruegel, Giovanni Vigna, Gianluca Stringhini,
- Abstract要約: CVE-GENIEは、現実世界の脆弱性を再現する自動化フレームワークである。
2024-2025年に発行されたCVEの51% (841の428) を再現し、CVE当たり平均2.77ドルで、検証可能なエクスプロイトを完備している。
私たちのパイプラインは、様々なアプリケーションに有用な再現可能なCVEベンチマークを生成する堅牢な方法を提供します。
- 参考スコア(独自算出の注目度): 23.210122086674048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality datasets of real-world vulnerabilities and their corresponding verifiable exploits are crucial resources in software security research. Yet such resources remain scarce, as their creation demands intensive manual effort and deep security expertise. In this paper, we present CVE-GENIE, an automated, large language model (LLM)-based multi-agent framework designed to reproduce real-world vulnerabilities, provided in Common Vulnerabilities and Exposures (CVE) format, to enable creation of high-quality vulnerability datasets. Given a CVE entry as input, CVE-GENIE gathers the relevant resources of the CVE, automatically reconstructs the vulnerable environment, and (re)produces a verifiable exploit. Our systematic evaluation highlights the efficiency and robustness of CVE-GENIE's design and successfully reproduces approximately 51% (428 of 841) CVEs published in 2024-2025, complete with their verifiable exploits, at an average cost of $2.77 per CVE. Our pipeline offers a robust method to generate reproducible CVE benchmarks, valuable for diverse applications such as fuzzer evaluation, vulnerability patching, and assessing AI's security capabilities.
- Abstract(参考訳): 現実世界の脆弱性とそれに対応する検証可能なエクスプロイトの高品質データセットは、ソフトウェアセキュリティ研究において重要なリソースである。
しかし、これらのリソースは、その作成が手作業の集中とセキュリティの深い専門知識を必要とするため、依然として不足している。
本稿では,CVE-GENIEを提案する。CVE-GENIEは,現実世界の脆弱性を再現し,高品質な脆弱性データセットを作成するために,CVEフォーマットで提供される,LLMベースのマルチエージェントフレームワークである。
入力としてCVEエントリが与えられると、CVE-GENIEはCVEの関連リソースを収集し、脆弱性のある環境を自動的に再構築し、(re)検証可能なエクスプロイトを生成する。
CVE-GENIEの設計の効率性とロバスト性を強調し,2024-2025年に発表されたCVEの約51% (428 of 841) をCVE当たり平均2.77ドルで再現した。
私たちのパイプラインは、ファジィア評価、脆弱性パッチ、AIのセキュリティ機能の評価など、さまざまなアプリケーションに有用な再現可能なCVEベンチマークを生成する堅牢な方法を提供します。
関連論文リスト
- VulnRepairEval: An Exploit-Based Evaluation Framework for Assessing Large Language Model Vulnerability Repair Capabilities [41.85494398578654]
VulnRepairEvalは、関数型Proof-of-Conceptエクスプロイトに固定された評価フレームワークである。
我々のフレームワークは、再現可能な微分評価を可能にする包括的でコンテナ化された評価パイプラインを提供する。
論文 参考訳(メタデータ) (2025-09-03T14:06:10Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [48.10068691540979]
A.S.E(AI Code Generation Security Evaluation)は、リポジトリレベルのセキュアコード生成のためのベンチマークである。
A.S.Eは、ドキュメント化されたCVEで実際のリポジトリからタスクを構築し、完全なリポジトリコンテキストを保存する。
その再現性のあるコンテナ化評価フレームワークは、専門家定義のルールを使用して、セキュリティ、ビルド品質、生成安定性の安定的で監査可能な評価を提供する。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - VLAI: A RoBERTa-Based Model for Automated Vulnerability Severity Classification [49.1574468325115]
RoBERTa上に構築されたVLAIは、60万以上の現実世界の脆弱性に微調整されている。
モデルとデータセットはオープンソースで、Vulnerability-Lookupサービスに統合されている。
論文 参考訳(メタデータ) (2025-07-04T14:28:14Z) - Using LLMs for Security Advisory Investigations: How Far Are We? [2.916588882952662]
大規模言語モデル(LLM)は、ソフトウェアセキュリティにおいてますます使われているが、正確な脆弱性アドバイザリを生成する上での信頼性は、いまだに不確実である。
本研究では,(1)CVE-IDから有効なセキュリティアドバイザリを生成し,(2)偽CVE-IDと現実を区別し,(3)CVE-IDをアドバイザリ記述から抽出する能力について検討する。
論文 参考訳(メタデータ) (2025-06-16T07:17:34Z) - PoCGen: Generating Proof-of-Concept Exploits for Vulnerabilities in Npm Packages [16.130469984234956]
PoCGenは、npmパッケージの脆弱性に対するPoCエクスプロイトを自動生成し、検証する新しいアプローチである。
大規模な言語モデル(LLM)をPoCエクスプロイト生成のための静的および動的解析技術と併用する、初めての完全自律型アプローチである。
論文 参考訳(メタデータ) (2025-06-05T12:37:33Z) - CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale [46.76144797837242]
大規模言語モデル(LLM)エージェントは、自律的なサイバーセキュリティタスクの処理において、ますます熟練している。
既存のベンチマークは不足していて、現実のシナリオをキャプチャできなかったり、スコープが限られていたりします。
我々はCyberGymを紹介した。CyberGymは1,507の現実世界の脆弱性を特徴とする大規模かつ高品質なサイバーセキュリティ評価フレームワークである。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - ARVO: Atlas of Reproducible Vulnerabilities for Open Source Software [20.927909014593318]
オープンソースソフトウェアでは,ARVO:Atlas of Reproducible Vulnerabilitiesを紹介した。
250以上のプロジェクトにわたって5,000以上のメモリ脆弱性を再現しています。
OSS-Fuzzが新たな脆弱性を見つけると、データセットは自動的に更新されます。
論文 参考訳(メタデータ) (2024-08-04T22:13:14Z) - CVEfixes: Automated Collection of Vulnerabilities and Their Fixes from
Open-Source Software [0.0]
完全に自動化されたデータセット収集ツールを実装し、CVEfixesという脆弱性データセットの初期リリースを共有します。
データセットには、プログラミング言語などのメタデータと、5つの抽象化レベルにおける詳細なコードとセキュリティメトリクスが組み込まれている。
CVEfixesは、脆弱性予測、脆弱性分類、脆弱性重大度予測、脆弱性関連コード変更の分析、自動脆弱性修正など、さまざまなタイプのデータ駆動型ソフトウェアセキュリティ研究をサポートしている。
論文 参考訳(メタデータ) (2021-07-19T11:34:09Z) - Autosploit: A Fully Automated Framework for Evaluating the
Exploitability of Security Vulnerabilities [47.748732208602355]
Autosploitは脆弱性の悪用性を評価するためのフレームワークだ。
環境の異なる設定でエクスプロイトを自動的にテストする。
ノイズレス環境とノイズの多い環境の両方で脆弱性を悪用する能力に影響を与えるシステムの特性を識別することができる。
論文 参考訳(メタデータ) (2020-06-30T18:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。