論文の概要: Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements
- arxiv url: http://arxiv.org/abs/2410.17141v4
- Date: Fri, 21 Feb 2025 17:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:07:33.019641
- Title: Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements
- Title(参考訳): 自動浸透テストに向けて - LLMベンチマークの導入,分析,改善
- Authors: Isamu Isozaki, Manil Shrestha, Rick Console, Edward Kim,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いた自動浸透試験のためのオープンベンチマークを提案する。
GPT-4o や LLama 3.1-405B などの LLM の性能を最先端の PentestGPT ツールを用いて評価した。
LLama 3.1 は GPT-4o 以上のエッジを実証するが, 両モデルとも, 最小限の人的支援を伴っても, エンド・ツー・エンドの浸透試験を行なわなかった。
- 参考スコア(独自算出の注目度): 1.4433703131122861
- License:
- Abstract: Hacking poses a significant threat to cybersecurity, inflicting billions of dollars in damages annually. To mitigate these risks, ethical hacking, or penetration testing, is employed to identify vulnerabilities in systems and networks. Recent advancements in large language models (LLMs) have shown potential across various domains, including cybersecurity. However, there is currently no comprehensive, open, automated, end-to-end penetration testing benchmark to drive progress and evaluate the capabilities of these models in security contexts. This paper introduces a novel open benchmark for LLM-based automated penetration testing, addressing this critical gap. We first evaluate the performance of LLMs, including GPT-4o and LLama 3.1-405B, using the state-of-the-art PentestGPT tool. Our findings reveal that while LLama 3.1 demonstrates an edge over GPT-4o, both models currently fall short of performing end-to-end penetration testing even with some minimal human assistance. Next, we advance the state-of-the-art and present ablation studies that provide insights into improving the PentestGPT tool. Our research illuminates the challenges LLMs face in each aspect of Pentesting, e.g. enumeration, exploitation, and privilege escalation. This work contributes to the growing body of knowledge on AI-assisted cybersecurity and lays the foundation for future research in automated penetration testing using large language models.
- Abstract(参考訳): ハッキングはサイバーセキュリティにとって重大な脅威となり、毎年数十億ドルの損害を被る。
これらのリスクを軽減するために、倫理的ハッキング(英語版)または侵入テスト(英語版)がシステムやネットワークの脆弱性を特定するために使用される。
大規模言語モデル(LLM)の最近の進歩は、サイバーセキュリティを含む様々な領域に可能性を示している。
しかし、現在、これらのモデルの進捗を推し進め、セキュリティコンテキストにおける能力を評価するために、包括的で、オープンで、自動化された、エンドツーエンドの貫入テストベンチマークはありません。
本稿では,LLMを用いた自動貫入試験のための新しいオープンベンチマークを提案し,この重要なギャップに対処する。
GPT-4o や LLama 3.1-405B などの LLM の性能を最先端の PentestGPT ツールを用いて評価した。
LLama 3.1 は GPT-4o 以上のエッジを実証するが, 両モデルとも, 最小限の人的支援を伴っても, エンド・ツー・エンドの浸透試験を行なわなかった。
次に、PentestGPTツールの改善に関する洞察を提供する最先端の研究と、現在のアブレーション研究を前進させる。
我々の研究は、LLMがPentesting, eg enumeration, exploitation, privilege escalationの各側面で直面している課題を照らす。
この研究は、AI支援サイバーセキュリティに関する知識の高まりに寄与し、大きな言語モデルを用いた自動浸透テストの基盤となる。
関連論文リスト
- Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
テスト時間計算による自動ジェイルブレイクに対する逆推論手法を開発した。
我々のアプローチは、LSMの脆弱性を理解するための新しいパラダイムを導入し、より堅牢で信頼性の高いAIシステムの開発の基礎を築いた。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - PentestAgent: Incorporating LLM Agents to Automated Penetration Testing [6.815381197173165]
手動浸透試験は時間と費用がかかる。
大規模言語モデル(LLM)の最近の進歩は、浸透テストを強化する新たな機会を提供する。
我々は,新しいLLMベースの自動浸透試験フレームワークであるPentestAgentを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:10:39Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Hacking, The Lazy Way: LLM Augmented Pentesting [0.0]
Pentest Copilot"というツールを使って"LLM Augmented Pentesting"をデモする
私たちの研究には、トークン使用の合理化とパフォーマンス向上のための"思考の連鎖"メカニズムが含まれています。
LLMがファイルの理解を可能にする新しいファイル解析手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T17:40:35Z) - CIPHER: Cybersecurity Intelligent Penetration-testing Helper for Ethical Researcher [1.6652242654250329]
本研究は,Cybersecurity Intelligent Peretration-testing Helper for Ethical researchers (CIPHER)を開発した。
私たちは、脆弱なマシンの300以上の高品質な書き込み、ハッキングテクニック、オープンソースの侵入テストツールのドキュメントを使用してCIPHERをトレーニングしました。
本研究では,完全自動ペンテスティング・シミュレーション・ベンチマークを確立するために,書込みテストの拡張手法であるFinderings, Action, Reasoning, Results (FARR) Flow Augmentationを紹介する。
論文 参考訳(メタデータ) (2024-08-21T14:24:04Z) - Automated Text Scoring in the Age of Generative AI for the GPU-poor [49.1574468325115]
自動テキストスコアリングのためのオープンソースの小規模生成言語モデルの性能と効率を解析する。
以上の結果から, GLMは, 最先端の高性能化には至らず, 適正な調整が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-07-02T01:17:01Z) - Selene: Pioneering Automated Proof in Software Verification [62.09555413263788]
実世界の産業レベルのマイクロカーネルであるseL4をベースとした,最初のプロジェクトレベルの自動証明ベンチマークであるSeleneを紹介する。
GPT-3.5-turbo や GPT-4 のような先進的な大規模言語モデル (LLM) による実験結果から, 自動証明生成領域における LLM の機能を強調した。
論文 参考訳(メタデータ) (2024-01-15T13:08:38Z) - Vulnerability of Machine Learning Approaches Applied in IoT-based Smart Grid: A Review [51.31851488650698]
機械学習(ML)は、IoT(Internet-of-Things)ベースのスマートグリッドでの使用頻度が高まっている。
電力信号に注入された逆方向の歪みは システムの正常な制御と操作に大きな影響を及ぼす
安全クリティカルパワーシステムに適用されたMLsgAPPの脆弱性評価を行うことが不可欠である。
論文 参考訳(メタデータ) (2023-08-30T03:29:26Z) - PentestGPT: An LLM-empowered Automatic Penetration Testing Tool [20.449761406790415]
大規模言語モデル(LLM)は、様々な領域において大きな進歩を見せている。
実世界の浸透試験におけるLLMの性能を,プラットフォームを用いたテストマシンから作成した頑健なベンチマークを用いて評価した。
LLMを利用した自動浸透試験ツールであるPentestGPTを紹介する。
論文 参考訳(メタデータ) (2023-08-13T14:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。