論文の概要: PentestEval: Benchmarking LLM-based Penetration Testing with Modular and Stage-Level Design
- arxiv url: http://arxiv.org/abs/2512.14233v1
- Date: Tue, 16 Dec 2025 09:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.663574
- Title: PentestEval: Benchmarking LLM-based Penetration Testing with Modular and Stage-Level Design
- Title(参考訳): PentestEval: モジュールおよびステージレベル設計によるLLMベースの浸透テストのベンチマーク
- Authors: Ruozhao Yang, Mingfei Cheng, Gelei Deng, Tianwei Zhang, Junjie Wang, Xiaofei Xie,
- Abstract要約: PentestEvalは、6つの浸透テストステージにわたる大規模言語モデル(LLM)を評価するための、最初の包括的なベンチマークである。
12の現実的な脆弱なシナリオで、すべてのステージをカバーする346のタスクを対象とした、専門家による注釈付き土台真実と、完全に自動化された評価パイプラインを統合する。
9つのLLMのステージレベル評価では, 一般的には性能が低く, 浸透試験ワークフローの段階にわたって異なる限界がみられた。
- 参考スコア(独自算出の注目度): 30.68819474524929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Penetration testing is essential for assessing and strengthening system security against real-world threats, yet traditional workflows remain highly manual, expertise-intensive, and difficult to scale. Although recent advances in Large Language Models (LLMs) offer promising opportunities for automation, existing applications rely on simplistic prompting without task decomposition or domain adaptation, resulting in unreliable black-box behavior and limited insight into model capabilities across penetration testing stages. To address this gap, we introduce PentestEval, the first comprehensive benchmark for evaluating LLMs across six decomposed penetration testing stages: Information Collection, Weakness Gathering and Filtering, Attack Decision-Making, Exploit Generation and Revision. PentestEval integrates expert-annotated ground truth with a fully automated evaluation pipeline across 346 tasks covering all stages in 12 realistic vulnerable scenarios. Our stage-level evaluation of 9 widely used LLMs reveals generally weak performance and distinct limitations across the stages of penetration-testing workflow. End-to-end pipelines reach only 31% success rate, and existing LLM-powered systems such as PentestGPT, PentestAgent, and VulnBot exhibit similar limitations, with autonomous agents failing almost entirely. These findings highlight that autonomous penetration testing demands stronger structured reasoning, where modularization enhances each individual stage and improves overall performance. PentestEval provides the foundational benchmark needed for future research on fine-grained, stage-level evaluation, paving the way toward more reliable LLM-based automation.
- Abstract(参考訳): 侵入テストは、現実世界の脅威に対するシステムのセキュリティの評価と強化に不可欠である。
最近のLLM(Large Language Models)の進歩は自動化のための有望な機会を提供するが、既存のアプリケーションはタスクの分解やドメイン適応なしに単純化されたプロンプトに依存しており、信頼性の低いブラックボックスの振る舞いと、浸透テスト段階におけるモデル機能に関する限られた洞察をもたらす。
このギャップに対処するため、PentestEvalは、情報収集、弱みの収集とフィルタリング、アタック・ディクシジョン・メイキング、エクスプロイト・ジェネレーション、リビジョンの6つの分解された浸透試験段階におけるLSMを評価するための最初の総合的なベンチマークである。
PentestEvalはエキスパートアノテートされた土台真実と、12の現実的な脆弱なシナリオにおいて、すべてのステージをカバーする346のタスクにわたる完全に自動化された評価パイプラインを統合する。
9つのLLMのステージレベル評価では, 一般的には性能が低く, 浸透試験ワークフローの段階にわたって異なる限界がみられた。
エンドツーエンドパイプラインはわずか31%の成功率に達し、PentestGPT、PentestAgent、VulnBotといった既存のLLMシステムも同様の制限を示しており、自律エージェントはほぼ完全に失敗している。
これらの結果から,自律貫入試験では,各ステージのモジュール化が促進され,全体的な性能が向上する構造的推論が要求されることがわかった。
PentestEvalは、よりきめ細かいステージレベルの評価に関する将来の研究に必要な基礎的なベンチマークを提供し、より信頼性の高いLLMベースの自動化への道を開く。
関連論文リスト
- LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - PentestAgent: Incorporating LLM Agents to Automated Penetration Testing [6.815381197173165]
手動浸透試験は時間と費用がかかる。
大規模言語モデル(LLM)の最近の進歩は、浸透テストを強化する新たな機会を提供する。
我々は,新しいLLMベースの自動浸透試験フレームワークであるPentestAgentを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:10:39Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。
現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。
本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:57:42Z) - PentestGPT: An LLM-empowered Automatic Penetration Testing Tool [20.449761406790415]
大規模言語モデル(LLM)は、様々な領域において大きな進歩を見せている。
実世界の浸透試験におけるLLMの性能を,プラットフォームを用いたテストマシンから作成した頑健なベンチマークを用いて評価した。
LLMを利用した自動浸透試験ツールであるPentestGPTを紹介する。
論文 参考訳(メタデータ) (2023-08-13T14:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。