論文の概要: PentestGPT: An LLM-empowered Automatic Penetration Testing Tool
- arxiv url: http://arxiv.org/abs/2308.06782v1
- Date: Sun, 13 Aug 2023 14:35:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 14:30:32.677868
- Title: PentestGPT: An LLM-empowered Automatic Penetration Testing Tool
- Title(参考訳): PentestGPT: LLMを利用した自動浸透試験ツール
- Authors: Gelei Deng, Yi Liu, V\'ictor Mayoral-Vilches, Peng Liu, Yuekang Li,
Yuan Xu, Tianwei Zhang, Yang Liu, Martin Pinzger, Stefan Rass
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域において大きな進歩を見せている。
実世界の浸透試験におけるLLMの性能を,プラットフォームを用いたテストマシンから作成した頑健なベンチマークを用いて評価した。
LLMを利用した自動浸透試験ツールであるPentestGPTを紹介する。
- 参考スコア(独自算出の注目度): 21.304324676865242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Penetration testing, a crucial industrial practice for ensuring system
security, has traditionally resisted automation due to the extensive expertise
required by human professionals. Large Language Models (LLMs) have shown
significant advancements in various domains, and their emergent abilities
suggest their potential to revolutionize industries. In this research, we
evaluate the performance of LLMs on real-world penetration testing tasks using
a robust benchmark created from test machines with platforms. Our findings
reveal that while LLMs demonstrate proficiency in specific sub-tasks within the
penetration testing process, such as using testing tools, interpreting outputs,
and proposing subsequent actions, they also encounter difficulties maintaining
an integrated understanding of the overall testing scenario.
In response to these insights, we introduce PentestGPT, an LLM-empowered
automatic penetration testing tool that leverages the abundant domain knowledge
inherent in LLMs. PentestGPT is meticulously designed with three
self-interacting modules, each addressing individual sub-tasks of penetration
testing, to mitigate the challenges related to context loss. Our evaluation
shows that PentestGPT not only outperforms LLMs with a task-completion increase
of 228.6\% compared to the \gptthree model among the benchmark targets but also
proves effective in tackling real-world penetration testing challenges. Having
been open-sourced on GitHub, PentestGPT has garnered over 4,700 stars and
fostered active community engagement, attesting to its value and impact in both
the academic and industrial spheres.
- Abstract(参考訳): システムセキュリティを確保する上で重要な産業プラクティスである浸透テストは、従来の自動化に抵抗してきた。
大規模言語モデル(llm)は様々な分野において著しい進歩を示しており、その創発的な能力は産業に革命をもたらす可能性を示唆している。
本研究では,テストマシンとプラットフォームを併用したロバストなベンチマークを用いて実世界の浸透試験におけるLLMの性能を評価する。
その結果,LSMは,テストツールの使用,アウトプットの解釈,その後の動作の提案など,浸透試験プロセス内の特定のサブタスクの習熟度を示す一方で,総合的なテストシナリオの統合的理解の維持にも困難が生じた。
これらの知見に応えて,LLMに固有の豊富なドメイン知識を活用する自動浸透テストツールであるPentestGPTを紹介した。
PentestGPTは、3つの自己相互作用モジュールで慎重に設計されており、それぞれが個々の潜入テストのサブタスクに対処し、コンテキスト損失に関連する課題を軽減する。
評価の結果,pentestgptは228.6\%のタスクコンプリートでllmを上回るだけでなく,実世界の浸透テストの課題に取り組む上で有効であることがわかった。
GitHubでオープンソース化されて以来、PentestGPTは4700以上のスターを集め、学術分野と産業分野の両方でその価値と影響を証明し、活発なコミュニティの関与を促進してきた。
関連論文リスト
- Effectiveness Assessment of Recent Large Vision-Language Models [82.08377770649777]
専門的・汎用的なタスクにおいて,一般的な大規模視覚言語モデル(LVLM)の能力を評価する。
視覚認識とローカライゼーションの領域における最近の3つのオープンソースLVLM(MiniGPT-v2,LLaVA-1.5,Shikra)の性能について検討する。
本研究により, これらのモデルは, 特殊タスクだけでなく, 一般タスクにおいても, 限られた習熟度を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific
Data Visualization [88.72769238904908]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - LLbezpeky: Leveraging Large Language Models for Vulnerability Detection [10.330063887545398]
大規模言語モデル(LLM)は、人やプログラミング言語におけるセムナティクスを理解する大きな可能性を示している。
私たちは、脆弱性の特定と修正を支援するAI駆動ワークフローの構築に重点を置いています。
論文 参考訳(メタデータ) (2024-01-02T16:14:30Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Evaluating LLMs for Privilege-Escalation Scenarios [0.0]
侵入テストにより、組織はシステム内の脆弱性を積極的に識別し、修正することができる。
浸透試験の領域における最近の進歩の1つは言語モデル(LLM)の利用である。
LLMと浸透試験の交わりを探索し、私的エスカレーションの文脈におけるそれらの能力と課題について考察する。
論文 参考訳(メタデータ) (2023-10-17T17:15:41Z) - Identifying the Risks of LM Agents with an LM-Emulated Sandbox [70.83306884808988]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。
これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。
ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
ツールエミュレータと評価器の両方を人体評価によりテストし,ToolEmuで特定されたエラーの68.8%が実世界のエージェントの失敗であることを確認した。
論文 参考訳(メタデータ) (2023-09-25T17:08:02Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。
セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文 参考訳(メタデータ) (2023-07-24T19:59:22Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - The Integration of Machine Learning into Automated Test Generation: A
Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。
MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文 参考訳(メタデータ) (2022-06-21T09:26:25Z) - Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting
Pot [71.28884625011987]
Melting PotはMARL評価スイートで、強化学習を使用して、新しいテストシナリオを作成するのに必要な人的労力を削減する。
幅広い研究トピックをカバーする80以上のユニークなテストシナリオを作成しました。
これらのテストシナリオを標準的なMARLトレーニングアルゴリズムに適用し、Melting Potがトレーニングのパフォーマンスだけでは明らかでない弱点をいかに明らかにするかを実証する。
論文 参考訳(メタデータ) (2021-07-14T17:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。