論文の概要: Automated Penetration Testing with LLM Agents and Classical Planning
- arxiv url: http://arxiv.org/abs/2512.11143v1
- Date: Thu, 11 Dec 2025 22:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.585813
- Title: Automated Penetration Testing with LLM Agents and Classical Planning
- Title(参考訳): LLMエージェントによる自動浸透試験と古典的計画
- Authors: Lingzhi Wang, Xinyi Shi, Ziyu Li, Yi Jiang, Shiyu Tan, Yuhao Jiang, Junjie Cheng, Wenyuan Chen, Xiangmin Shen, Zhenyuan LI, Yan Chen,
- Abstract要約: 本稿では,Planner-Executor-Perceptor (PEP) の設計パラダイムを紹介する。
我々は既存の浸透試験システムの評価を行い、特にLarge Language Model (LLM) エージェントの使用に焦点を当てた。
LLMエージェントに拡張古典計画を統合するフレームワークであるCHECKMATEを提案する。
- 参考スコア(独自算出の注目度): 17.63204677572438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While penetration testing plays a vital role in cybersecurity, achieving fully automated, hands-off-the-keyboard execution remains a significant research challenge. In this paper, we introduce the "Planner-Executor-Perceptor (PEP)" design paradigm and use it to systematically review existing work and identify the key challenges in this area. We also evaluate existing penetration testing systems, with a particular focus on the use of Large Language Model (LLM) agents for this task. The results show that the out-of-the-box Claude Code and Sonnet 4.5 exhibit superior penetration capabilities observed to date, substantially outperforming all prior systems. However, a detailed analysis of their testing processes reveals specific strengths and limitations; notably, LLM agents struggle with maintaining coherent long-horizon plans, performing complex reasoning, and effectively utilizing specialized tools. These limitations significantly constrain its overall capability, efficiency, and stability. To address these limitations, we propose CHECKMATE, a framework that integrates enhanced classical planning with LLM agents, providing an external, structured "brain" that mitigates the inherent weaknesses of LLM agents. Our evaluation shows that CHECKMATE outperforms the state-of-the-art system (Claude Code) in penetration capability, improving benchmark success rates by over 20%. In addition, it delivers substantially greater stability, cutting both time and monetary costs by more than 50%.
- Abstract(参考訳): 侵入テストはサイバーセキュリティにおいて重要な役割を担っているが、完全に自動化されたキーボードによる実行を達成することは、依然として重要な研究課題である。
本稿では,Planner-Executor-Perceptor(PEP)設計パラダイムを紹介し,既存の作業を体系的にレビューし,この分野の主要な課題を特定する。
また,既存の浸透試験システムの評価を行い,このタスクにLarge Language Model (LLM) エージェントを使用する点に着目した。
その結果, 既製のClaude CodeとSonnet 4.5は, 従来よりはるかに優れた浸透性能を示し, 従来のシステムよりも大幅に優れていたことがわかった。
しかし、それらのテストプロセスの詳細な分析では、特にLLMエージェントは、一貫性のある長期計画の維持、複雑な推論の実行、および専門ツールの有効活用に苦慮している。
これらの制限は、全体的な能力、効率、安定性を著しく制限する。
これらの制約に対処するため,従来の計画とLLMエージェントを統合したフレームワークであるCHECKMATEを提案する。
評価の結果,CHECKMATEは浸透能力において最先端システム(Claude Code)より優れており,ベンチマーク成功率が20%以上向上していることがわかった。
さらに、時間と金銭のコストを50%以上削減し、安定性を大幅に向上させる。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - From Capabilities to Performance: Evaluating Key Functional Properties of LLM Architectures in Penetration Testing [5.7613138934999455]
大規模言語モデル(LLM)は、浸透テストの自動化や強化にますます使用されているが、その有効性とアタックフェーズ間の信頼性は未定である。
本稿では, 単一エージェントからモジュール設計まで, 現実的な浸透試験シナリオにおける複数のLCMエージェントの包括的評価を行う。
論文 参考訳(メタデータ) (2025-09-16T21:51:59Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - PentestAgent: Incorporating LLM Agents to Automated Penetration Testing [6.815381197173165]
手動浸透試験は時間と費用がかかる。
大規模言語モデル(LLM)の最近の進歩は、浸透テストを強化する新たな機会を提供する。
我々は,新しいLLMベースの自動浸透試験フレームワークであるPentestAgentを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:10:39Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。