論文の概要: CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities
- arxiv url: http://arxiv.org/abs/2503.17332v1
- Date: Fri, 21 Mar 2025 17:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:30.870810
- Title: CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities
- Title(参考訳): CVE-Bench: AIエージェントのリアルタイムWebアプリケーション脆弱性のエクスプロイト能力のベンチマーク
- Authors: Yuxuan Zhu, Antony Kellermann, Dylan Bowman, Philip Li, Akul Gupta, Adarsh Danda, Richard Fang, Conner Jensen, Eric Ihli, Jason Benn, Jet Geronimo, Avi Dhir, Sudhit Rao, Kaicheng Yu, Twm Stone, Daniel Kang,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、サイバー攻撃を自律的に行う能力が高まっている。
既存のベンチマークは、抽象化されたCapture the Flagコンペティションに制限されているか、包括的なカバレッジが欠如しているため、不足している。
私たちはCVE-Benchを紹介します。CVE-Benchは、クリティカルシヴァリティ・コモン・脆弱性と露出に基づく、現実世界のサイバーセキュリティベンチマークです。
- 参考スコア(独自算出の注目度): 6.752938800468733
- License:
- Abstract: Large language model (LLM) agents are increasingly capable of autonomously conducting cyberattacks, posing significant threats to existing applications. This growing risk highlights the urgent need for a real-world benchmark to evaluate the ability of LLM agents to exploit web application vulnerabilities. However, existing benchmarks fall short as they are limited to abstracted Capture the Flag competitions or lack comprehensive coverage. Building a benchmark for real-world vulnerabilities involves both specialized expertise to reproduce exploits and a systematic approach to evaluating unpredictable threats. To address this challenge, we introduce CVE-Bench, a real-world cybersecurity benchmark based on critical-severity Common Vulnerabilities and Exposures. In CVE-Bench, we design a sandbox framework that enables LLM agents to exploit vulnerable web applications in scenarios that mimic real-world conditions, while also providing effective evaluation of their exploits. Our evaluation shows that the state-of-the-art agent framework can resolve up to 13% of vulnerabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、ますます自律的にサイバー攻撃を行う能力が高くなり、既存のアプリケーションに重大な脅威をもたらしている。
この増大するリスクは、LLMエージェントがWebアプリケーションの脆弱性を悪用する能力を評価するために、現実世界のベンチマークが緊急に必要であることを示している。
しかしながら、既存のベンチマークは、Capture the Flagコンペティションの抽象化や包括的なカバレッジの欠如によって不足している。
現実世界の脆弱性のベンチマークを構築するには、エクスプロイトを再現する専門知識と、予測不可能な脅威を評価するための体系的なアプローチの両方が必要です。
この課題に対処するために、CVE-Benchを紹介します。CVE-Benchは、クリティカルシヴァリティの共通脆弱性と露出に基づく、現実世界のサイバーセキュリティベンチマークです。
CVE-Benchでは、LLMエージェントが現実世界の環境を模倣するシナリオで脆弱なWebアプリケーションを悪用できるサンドボックスフレームワークを設計し、それらのエクスプロイトを効果的に評価する。
我々の評価によると、最先端のエージェントフレームワークは最大13%の脆弱性を解決できる。
関連論文リスト
- LLM Cyber Evaluations Don't Capture Real-World Risk [0.0]
大規模言語モデル(LLMs)は、サイバーセキュリティアプリケーションにおける進歩を誇示している。
これらの能力によって引き起こされるリスクを評価するための現在の取り組みは、現実のインパクトを理解するという目標と不一致である、と我々は主張する。
論文 参考訳(メタデータ) (2025-01-31T05:33:48Z) - ChatNVD: Advancing Cybersecurity Vulnerability Assessment with Large Language Models [0.46873264197900916]
本稿では,Large Language Models (LLMs) のソフトウェア脆弱性評価への応用について検討する。
我々は,OpenAIによるGPT-4o mini,MetaによるLlama 3,GoogleによるGemini 1.5 Proの3つの著名なLCMを利用して,ChatNVDの3つの変種を開発した。
それらの有効性を評価するために,一般的なセキュリティ脆弱性質問を含む包括的アンケートを用いて,これらのモデルの比較分析を行った。
論文 参考訳(メタデータ) (2024-12-06T03:45:49Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - SECURE: Benchmarking Large Language Models for Cybersecurity [0.6741087029030101]
大規模言語モデル(LLM)はサイバーセキュリティの応用の可能性を示しているが、幻覚や真実性の欠如といった問題により信頼性が低下している。
本研究は、これらのタスクに関する7つの最先端モデルを評価し、サイバーセキュリティの文脈におけるその強みと弱点に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-05-30T19:35:06Z) - Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal [0.0]
本稿では,従来のシステムにおけるリスク評価手法のようなツールを用いたリスク評価プロセスを提案する。
我々は、潜在的な脅威要因を特定し、脆弱性要因に対して依存するシステムコンポーネントをマッピングするためのシナリオ分析を行う。
3つの主要株主グループに対する脅威もマップ化しています。
論文 参考訳(メタデータ) (2024-03-20T05:17:22Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - Automated Security Assessment for the Internet of Things [6.690766107366799]
我々はIoTネットワークの自動セキュリティアセスメントフレームワークを提案する。
我々のフレームワークは、まず機械学習と自然言語処理を利用して脆弱性記述を分析する。
このセキュリティモデルは、潜在的な攻撃経路をキャプチャすることで、IoTネットワークのセキュリティを自動的に評価する。
論文 参考訳(メタデータ) (2021-09-09T04:42:24Z) - Autosploit: A Fully Automated Framework for Evaluating the
Exploitability of Security Vulnerabilities [47.748732208602355]
Autosploitは脆弱性の悪用性を評価するためのフレームワークだ。
環境の異なる設定でエクスプロイトを自動的にテストする。
ノイズレス環境とノイズの多い環境の両方で脆弱性を悪用する能力に影響を与えるシステムの特性を識別することができる。
論文 参考訳(メタデータ) (2020-06-30T18:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。