論文の概要: Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements
- arxiv url: http://arxiv.org/abs/2410.17141v1
- Date: Tue, 22 Oct 2024 16:18:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:29:20.697659
- Title: Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements
- Title(参考訳): 自動浸透テストに向けて - LLMベンチマークの導入,分析,改善
- Authors: Isamu Isozaki, Manil Shrestha, Rick Console, Edward Kim,
- Abstract要約: 大規模言語モデル(LLM)は、サイバーセキュリティなど、さまざまな分野に可能性を示している。
現在、包括的で、オープンで、エンドツーエンドの自動浸透テストベンチマークはありません。
本稿では,LLMを用いた自動貫入試験のための新しいオープンベンチマークを提案する。
- 参考スコア(独自算出の注目度): 1.4433703131122861
- License:
- Abstract: Hacking poses a significant threat to cybersecurity, inflicting billions of dollars in damages annually. To mitigate these risks, ethical hacking, or penetration testing, is employed to identify vulnerabilities in systems and networks. Recent advancements in large language models (LLMs) have shown potential across various domains, including cybersecurity. However, there is currently no comprehensive, open, end-to-end automated penetration testing benchmark to drive progress and evaluate the capabilities of these models in security contexts. This paper introduces a novel open benchmark for LLM-based automated penetration testing, addressing this critical gap. We first evaluate the performance of LLMs, including GPT-4o and Llama 3.1-405B, using the state-of-the-art PentestGPT tool. Our findings reveal that while Llama 3.1 demonstrates an edge over GPT-4o, both models currently fall short of performing fully automated, end-to-end penetration testing. Next, we advance the state-of-the-art and present ablation studies that provide insights into improving the PentestGPT tool. Our research illuminates the challenges LLMs face in each aspect of Pentesting, e.g. enumeration, exploitation, and privilege escalation. This work contributes to the growing body of knowledge on AI-assisted cybersecurity and lays the foundation for future research in automated penetration testing using large language models.
- Abstract(参考訳): ハッキングはサイバーセキュリティにとって重大な脅威となり、毎年数十億ドルの損害を被る。
これらのリスクを軽減するために、倫理的ハッキング(英語版)または侵入テスト(英語版)がシステムやネットワークの脆弱性を特定するために使用される。
大規模言語モデル(LLM)の最近の進歩は、サイバーセキュリティを含む様々な領域に可能性を示している。
しかし、現在、これらのモデルの進捗を推し進め、セキュリティコンテキストにおける能力を評価するために、包括的で、オープンで、エンドツーエンドの自動浸透テストベンチマークはありません。
本稿では,LLMを用いた自動貫入試験のための新しいオープンベンチマークを提案し,この重要なギャップに対処する。
GPT-4o や Llama 3.1-405B などの LLM の性能を最先端の PentestGPT ツールを用いて評価した。
この結果,Llama 3.1はGPT-4oのエッジを実証しているが,両モデルとも完全に自動化されたエンドツーエンドの貫入試験を行うには至っていないことがわかった。
次に、PentestGPTツールの改善に関する洞察を提供する最先端の研究と、現在のアブレーション研究を前進させる。
我々の研究は、LLMがPentesting, eg enumeration, exploitation, privilege escalationの各側面で直面している課題を照らす。
この研究は、AI支援サイバーセキュリティに関する知識の高まりに寄与し、大きな言語モデルを用いた自動浸透テストの基盤となる。
関連論文リスト
- AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Hacking, The Lazy Way: LLM Augmented Pentesting [0.0]
Pentest Copilot"というツールを使って"LLM Augmented Pentesting"をデモする
私たちの研究には、トークン使用の合理化とパフォーマンス向上のための"思考の連鎖"メカニズムが含まれています。
LLMがファイルの理解を可能にする新しいファイル解析手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T17:40:35Z) - CIPHER: Cybersecurity Intelligent Penetration-testing Helper for Ethical Researcher [1.6652242654250329]
本研究は,Cybersecurity Intelligent Peretration-testing Helper for Ethical researchers (CIPHER)を開発した。
私たちは、脆弱なマシンの300以上の高品質な書き込み、ハッキングテクニック、オープンソースの侵入テストツールのドキュメントを使用してCIPHERをトレーニングしました。
本研究では,完全自動ペンテスティング・シミュレーション・ベンチマークを確立するために,書込みテストの拡張手法であるFinderings, Action, Reasoning, Results (FARR) Flow Augmentationを紹介する。
論文 参考訳(メタデータ) (2024-08-21T14:24:04Z) - Automated Text Scoring in the Age of Generative AI for the GPU-poor [49.1574468325115]
自動テキストスコアリングのためのオープンソースの小規模生成言語モデルの性能と効率を解析する。
以上の結果から, GLMは, 最先端の高性能化には至らず, 適正な調整が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-07-02T01:17:01Z) - Selene: Pioneering Automated Proof in Software Verification [62.09555413263788]
実世界の産業レベルのマイクロカーネルであるseL4をベースとした,最初のプロジェクトレベルの自動証明ベンチマークであるSeleneを紹介する。
GPT-3.5-turbo や GPT-4 のような先進的な大規模言語モデル (LLM) による実験結果から, 自動証明生成領域における LLM の機能を強調した。
論文 参考訳(メタデータ) (2024-01-15T13:08:38Z) - Vulnerability of Machine Learning Approaches Applied in IoT-based Smart Grid: A Review [51.31851488650698]
機械学習(ML)は、IoT(Internet-of-Things)ベースのスマートグリッドでの使用頻度が高まっている。
電力信号に注入された逆方向の歪みは システムの正常な制御と操作に大きな影響を及ぼす
安全クリティカルパワーシステムに適用されたMLsgAPPの脆弱性評価を行うことが不可欠である。
論文 参考訳(メタデータ) (2023-08-30T03:29:26Z) - PentestGPT: An LLM-empowered Automatic Penetration Testing Tool [20.449761406790415]
大規模言語モデル(LLM)は、様々な領域において大きな進歩を見せている。
実世界の浸透試験におけるLLMの性能を,プラットフォームを用いたテストマシンから作成した頑健なベンチマークを用いて評価した。
LLMを利用した自動浸透試験ツールであるPentestGPTを紹介する。
論文 参考訳(メタデータ) (2023-08-13T14:35:50Z) - Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。
セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文 参考訳(メタデータ) (2023-07-24T19:59:22Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。