論文の概要: A Systematic Study on Generating Web Vulnerability Proof-of-Concepts Using Large Language Models
- arxiv url: http://arxiv.org/abs/2510.10148v1
- Date: Sat, 11 Oct 2025 10:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.810079
- Title: A Systematic Study on Generating Web Vulnerability Proof-of-Concepts Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたWeb Vulnerability Proof-Conceptの生成に関する体系的研究
- Authors: Mengyao Zhao, Kaixuan Li, Lyuye Zhang, Wenjing Dang, Chenggong Ding, Sen Chen, Zheli Liu,
- Abstract要約: 本稿では,Webアプリケーション脆弱性に対するLarge Language Models(LLMs)ベースのPoC生成に関する実証的研究について紹介する。
以上の結果から, LLMは公共データのみを用いて, 8%~34%の症例で作業用PoCを自動生成できることがわかった。
さらなる分析によると、コードコンテキストを補完することで成功率が17%-20%向上し、関数レベルが9%-13%改善した。
- 参考スコア(独自算出の注目度): 13.035038702785512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have brought remarkable progress in code understanding and reasoning, creating new opportunities and raising new concerns for software security. Among many downstream tasks, generating Proof-of-Concept (PoC) exploits plays a central role in vulnerability reproduction, comprehension, and mitigation. While previous research has focused primarily on zero-day exploitation, the growing availability of rich public information accompanying disclosed CVEs leads to a natural question: can LLMs effectively use this information to automatically generate valid PoCs? In this paper, we present the first empirical study of LLM-based PoC generation for web application vulnerabilities, focusing on the practical feasibility of leveraging publicly disclosed information. We evaluate GPT-4o and DeepSeek-R1 on 100 real-world and reproducible CVEs across three stages of vulnerability disclosure: (1) newly disclosed vulnerabilities with only descriptions, (2) 1-day vulnerabilities with patches, and (3) N-day vulnerabilities with full contextual code. Our results show that LLMs can automatically generate working PoCs in 8%-34% of cases using only public data, with DeepSeek-R1 consistently outperforming GPT-4o. Further analysis shows that supplementing code context improves success rates by 17%-20%, with function-level providing 9%-13% improvement than file-level ones. Further integrating adaptive reasoning strategies to prompt refinement significantly improves success rates to 68%-72%. Our findings suggest that LLMs could reshape vulnerability exploitation dynamics. To date, 23 newly generated PoCs have been accepted by NVD and Exploit DB.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩は,コード理解と推論,新たな機会の創出,ソフトウェアセキュリティに対する新たな関心の高まりなど,目覚ましい進歩をもたらしている。
多くの下流タスクの中で、Proof-of-Concept(PoC)エクスプロイトの生成は、脆弱性の再現、理解、緩和において中心的な役割を果たす。
これまでの研究は、主にゼロデイエクスプロイトに重点を置いてきたが、開示されたCVEに伴う豊富な公開情報の増加は、自然な疑問に繋がる: LLMは、この情報を使って有効なPoCを自動的に生成できるだろうか?
本稿では,Web アプリケーション脆弱性に対する LLM ベースの PoC 生成の実証的研究を行い,公開情報を活用した実用性に着目した。
GPT-4oとDeepSeek-R1は,脆弱性開示の3段階にわたって,(1)説明のみで新たに公開された脆弱性,(2)パッチによる1日間の脆弱性,(3)完全なコンテキストコードによるN日間の脆弱性,の3段階にわたって,100の現実世界および再現可能なCVEに対して評価した。
以上の結果から,LLMは公開データのみを用いた場合の8%~34%で作業用PoCを自動生成できることがわかった。
さらなる分析によると、コードコンテキストを補完することで、ファイルレベルよりも9%-13%改善され、成功率が17%-20%向上する。
さらに改良を促すための適応推論戦略の統合により、成功率は68%-72%に大幅に向上する。
以上の結果から,LSMは脆弱性のエクスプロイトのダイナミクスを再構築できる可能性が示唆された。
現在までに、新たに23個のPoCがNVDとExploit DBによって受け入れられている。
関連論文リスト
- External Data Extraction Attacks against Retrieval-Augmented Large Language Models [70.47869786522782]
RAGは、大規模言語モデル(LLM)を拡張するための重要なパラダイムとして登場した。
RAGは外部データ抽出攻撃(EDEA)の新たなリスクを導入している。
本研究は, EDEA を検索拡張 LLM に対して形式化する最初の総合的研究である。
論文 参考訳(メタデータ) (2025-10-03T12:53:45Z) - PoCGen: Generating Proof-of-Concept Exploits for Vulnerabilities in Npm Packages [13.877936187495555]
我々は,npmパッケージの脆弱性に対するPoCエクスプロイトを自律的に生成し,検証する新しいアプローチであるPoCGenを提案する。
PoCGenはSecBench$.jsデータセットの脆弱性の77%のエクスプロイトを生成することに成功した。
論文 参考訳(メタデータ) (2025-06-05T12:37:33Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale [45.97598662617568]
我々は188のソフトウェアプロジェクトにわたる1,507の実際の脆弱性を特徴とする大規模ベンチマークであるCyberGymを紹介した。
我々はCyberGymが35のゼロデイ脆弱性と17の歴史的不完全なパッチを発見できることを示した。
これらの結果は、CyberGymは、サイバーセキュリティにおけるAIの進歩を測定するための堅牢なベンチマークであるだけでなく、直接的な現実世界のセキュリティ効果を生み出すためのプラットフォームでもあることを強調している。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - ADVLLM: Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - VulScribeR: Exploring RAG-based Vulnerability Augmentation with LLMs [19.45598962972431]
VulScribeRは、慎重にキュレートされたプロンプトテンプレートを利用して脆弱なデータセットを拡張する新しいソリューションである。
我々のアプローチでは、VulgenとVGXの2つのSOTAメソッドを破り、Random Oversampling(ROS)は27.48%、27.93%、f1スコアで15.41%の脆弱性サンプルを生成する。
提案手法は,1Kサンプルを188ドル程度の安価で生成することで,大規模データ拡張の実現可能性を示す。
論文 参考訳(メタデータ) (2024-08-07T23:22:58Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。