論文の概要: LLM Agents for Automated Web Vulnerability Reproduction: Are We There Yet?
- arxiv url: http://arxiv.org/abs/2510.14700v1
- Date: Thu, 16 Oct 2025 14:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.885955
- Title: LLM Agents for Automated Web Vulnerability Reproduction: Are We There Yet?
- Title(参考訳): LLM Agents for Automated Web Vulnerability Re production: We Are There there?
- Authors: Bin Liu, Yanjie Zhao, Guoai Xu, Haoyu Wang,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、ソフトウェア工学とサイバーセキュリティタスクにおいて顕著な能力を示した。
最近の進歩は有望な可能性を示しているが、現実のWeb脆弱性の再現シナリオにLLMエージェントを適用する際の課題は依然として残っている。
本稿では,Web 脆弱性の自動再現のための最新の LLM エージェントを総合的に評価する。
- 参考スコア(独自算出の注目度): 9.817896112083647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents have demonstrated remarkable capabilities in software engineering and cybersecurity tasks, including code generation, vulnerability discovery, and automated testing. One critical but underexplored application is automated web vulnerability reproduction, which transforms vulnerability reports into working exploits. Although recent advances suggest promising potential, challenges remain in applying LLM agents to real-world web vulnerability reproduction scenarios. In this paper, we present the first comprehensive evaluation of state-of-the-art LLM agents for automated web vulnerability reproduction. We systematically assess 20 agents from software engineering, cybersecurity, and general domains across 16 dimensions, including technical capabilities, environment adaptability, and user experience factors, on 3 representative web vulnerabilities. Based on the results, we select three top-performing agents (OpenHands, SWE-agent, and CAI) for in-depth evaluation on our benchmark dataset of 80 real-world CVEs spanning 7 vulnerability types and 6 web technologies. Our results reveal that while LLM agents achieve reasonable success on simple library-based vulnerabilities, they consistently fail on complex service-based vulnerabilities requiring multi-component environments. Complex environment configurations and authentication barriers create a gap where agents can execute exploit code but fail to trigger actual vulnerabilities. We observe high sensitivity to input guidance, with performance degrading by over 33% under incomplete authentication information. Our findings highlight the significant gap between current LLM agent capabilities and the demands of reliable automated vulnerability reproduction, emphasizing the need for advances in environmental adaptation and autonomous problem-solving capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、コード生成、脆弱性発見、自動テストなど、ソフトウェアエンジニアリングとサイバーセキュリティタスクにおいて顕著な能力を示した。
致命的だが探索されていないアプリケーションの1つは、脆弱性レポートをワーキングエクスプロイトに変換する自動Web脆弱性再現である。
最近の進歩は有望な可能性を示しているが、現実のWeb脆弱性の再現シナリオにLLMエージェントを適用する際の課題は残っている。
本稿では,Web 脆弱性の自動再現のための最先端 LLM エージェントの総合評価を行う。
ソフトウェアエンジニアリング、サイバーセキュリティ、および16次元にわたる一般的なドメインから20のエージェントを、技術的能力、環境適応性、ユーザエクスペリエンス要因など3つの代表的なWeb脆弱性に基づいて体系的に評価する。
その結果,7つの脆弱性タイプと6つのWeb技術にまたがる80の現実世界CVEのベンチマークデータセットを詳細に評価するために,トップパフォーマンスエージェント(OpenHands,SWE-agent,CAI)を3つ選択した。
LLMエージェントは、単純なライブラリベースの脆弱性に対して妥当な成功を収める一方で、複数のコンポーネント環境を必要とする複雑なサービスベースの脆弱性に対して一貫して失敗することを明らかにする。
複雑な環境設定と認証障壁は、エージェントがエクスプロイトコードを実行できるが、実際の脆弱性をトリガーできないギャップを生み出す。
不完全な認証情報の下では,入力誘導に対する感度が高く,性能は33%以上低下する。
本研究は,現在のLSMエージェント能力と信頼性の高い自動脆弱性再現の要求との間に有意なギャップを生じさせ,環境適応と自律的問題解決能力の進歩の必要性を強調した。
関連論文リスト
- OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks [11.97472024483841]
SEC-benchは、大規模言語モデル(LLM)エージェントを評価するための、最初の完全に自動化されたベンチマークフレームワークである。
当社のフレームワークは,再現可能なアーティファクトを備えた高品質なソフトウェア脆弱性データセットを,インスタンス当たり0.87ドルで自動生成します。
最先端のLLMコードエージェントの包括的な評価では、大きなパフォーマンスギャップが明らかになっている。
論文 参考訳(メタデータ) (2025-06-13T13:54:30Z) - CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale [45.97598662617568]
我々は188のソフトウェアプロジェクトにわたる1,507の実際の脆弱性を特徴とする大規模ベンチマークであるCyberGymを紹介した。
我々はCyberGymが35のゼロデイ脆弱性と17の歴史的不完全なパッチを発見できることを示した。
これらの結果は、CyberGymは、サイバーセキュリティにおけるAIの進歩を測定するための堅牢なベンチマークであるだけでなく、直接的な現実世界のセキュリティ効果を生み出すためのプラットフォームでもあることを強調している。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities [6.752938800468733]
大規模言語モデル(LLM)エージェントは、サイバー攻撃を自律的に行う能力が高まっている。
既存のベンチマークは、抽象化されたCapture the Flagコンペティションに制限されているか、包括的なカバレッジが欠如しているため、不足している。
私たちはCVE-Benchを紹介します。CVE-Benchは、クリティカルシヴァリティ・コモン・脆弱性と露出に基づく、現実世界のサイバーセキュリティベンチマークです。
論文 参考訳(メタデータ) (2025-03-21T17:32:32Z) - Why Are Web AI Agents More Vulnerable Than Standalone LLMs? A Security Analysis [47.34614558636679]
本研究では,WebAIエージェントの脆弱性の増加に寄与する要因について検討する。
我々は,WebAIエージェントの脆弱性を増幅する3つの重要な要因,(1)ユーザの目標をシステムプロンプトに埋め込んだこと,(2)マルチステップアクション生成,(3)観察能力の3つを特定した。
論文 参考訳(メタデータ) (2025-02-27T18:56:26Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。