Fugu-MT 論文翻訳(概要): PentestGPT: An LLM-empowered Automatic Penetration Testing Tool

論文の概要: PentestGPT: An LLM-empowered Automatic Penetration Testing Tool

arxiv url: http://arxiv.org/abs/2308.06782v1
Date: Sun, 13 Aug 2023 14:35:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 14:30:32.677868
Title: PentestGPT: An LLM-empowered Automatic Penetration Testing Tool
Title（参考訳）: PentestGPT: LLMを利用した自動浸透試験ツール
Authors: Gelei Deng, Yi Liu, V\'ictor Mayoral-Vilches, Peng Liu, Yuekang Li, Yuan Xu, Tianwei Zhang, Yang Liu, Martin Pinzger, Stefan Rass
Abstract要約: 大規模言語モデル(LLM)は、様々な領域において大きな進歩を見せている。実世界の浸透試験におけるLLMの性能を,プラットフォームを用いたテストマシンから作成した頑健なベンチマークを用いて評価した。 LLMを利用した自動浸透試験ツールであるPentestGPTを紹介する。
参考スコア（独自算出の注目度）: 21.304324676865242
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Penetration testing, a crucial industrial practice for ensuring system security, has traditionally resisted automation due to the extensive expertise required by human professionals. Large Language Models (LLMs) have shown significant advancements in various domains, and their emergent abilities suggest their potential to revolutionize industries. In this research, we evaluate the performance of LLMs on real-world penetration testing tasks using a robust benchmark created from test machines with platforms. Our findings reveal that while LLMs demonstrate proficiency in specific sub-tasks within the penetration testing process, such as using testing tools, interpreting outputs, and proposing subsequent actions, they also encounter difficulties maintaining an integrated understanding of the overall testing scenario. In response to these insights, we introduce PentestGPT, an LLM-empowered automatic penetration testing tool that leverages the abundant domain knowledge inherent in LLMs. PentestGPT is meticulously designed with three self-interacting modules, each addressing individual sub-tasks of penetration testing, to mitigate the challenges related to context loss. Our evaluation shows that PentestGPT not only outperforms LLMs with a task-completion increase of 228.6\% compared to the \gptthree model among the benchmark targets but also proves effective in tackling real-world penetration testing challenges. Having been open-sourced on GitHub, PentestGPT has garnered over 4,700 stars and fostered active community engagement, attesting to its value and impact in both the academic and industrial spheres.
Abstract（参考訳）: システムセキュリティを確保する上で重要な産業プラクティスである浸透テストは、従来の自動化に抵抗してきた。大規模言語モデル(llm)は様々な分野において著しい進歩を示しており、その創発的な能力は産業に革命をもたらす可能性を示唆している。本研究では,テストマシンとプラットフォームを併用したロバストなベンチマークを用いて実世界の浸透試験におけるLLMの性能を評価する。その結果,LSMは,テストツールの使用,アウトプットの解釈,その後の動作の提案など,浸透試験プロセス内の特定のサブタスクの習熟度を示す一方で,総合的なテストシナリオの統合的理解の維持にも困難が生じた。これらの知見に応えて,LLMに固有の豊富なドメイン知識を活用する自動浸透テストツールであるPentestGPTを紹介した。 PentestGPTは、3つの自己相互作用モジュールで慎重に設計されており、それぞれが個々の潜入テストのサブタスクに対処し、コンテキスト損失に関連する課題を軽減する。評価の結果,pentestgptは228.6\%のタスクコンプリートでllmを上回るだけでなく,実世界の浸透テストの課題に取り組む上で有効であることがわかった。 GitHubでオープンソース化されて以来、PentestGPTは4700以上のスターを集め、学術分野と産業分野の両方でその価値と影響を証明し、活発なコミュニティの関与を促進してきた。

関連論文リスト

MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [64.62421656031128]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。 MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文参考訳（メタデータ） (2025-04-13T19:35:43Z)
Unit Testing Past vs. Present: Examining LLMs' Impact on Defect Detection and Efficiency [2.4936576553283283]
ソフトウェア工学へのLLM(Large Language Models)の統合は生産性を高める可能性を示している。本稿では,LLMサポートが単体テスト時の欠陥検出効率を向上させるかを検討する。
論文参考訳（メタデータ） (2025-02-13T22:27:55Z)
PentestAgent: Incorporating LLM Agents to Automated Penetration Testing [6.815381197173165]
手動浸透試験は時間と費用がかかる。大規模言語モデル(LLM)の最近の進歩は、浸透テストを強化する新たな機会を提供する。我々は,新しいLLMベースの自動浸透試験フレームワークであるPentestAgentを提案する。
論文参考訳（メタデータ） (2024-11-07T21:10:39Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements [1.4433703131122861]
大規模言語モデル(LLM)は、サイバーセキュリティなど、さまざまな分野に可能性を示している。現在、包括的で、オープンで、エンドツーエンドの自動浸透テストベンチマークはありません。本稿では,LLMを用いた自動貫入試験のための新しいオープンベンチマークを提案する。
論文参考訳（メタデータ） (2024-10-22T16:18:41Z)
Hacking, The Lazy Way: LLM Augmented Pentesting [0.0]
我々は、"Pentest Copilot"というツールを使って、"LLM Augmented Pentesting"という新しい概念を紹介した。提案手法は, LLMを用いて特定のサブタスクを自動化することにより, 浸透試験における自動化に対する従来の抵抗を克服することに焦点を当てる。 Pentest Copilotは、テストツールの利用、アウトプットの解釈、フォローアップアクションの提案など、タスクの卓越した熟練度を示す。
論文参考訳（メタデータ） (2024-09-14T17:40:35Z)
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。 3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2024-07-18T00:58:41Z)
Test Oracle Automation in the era of LLMs [52.69509240442899]
大規模言語モデル(LLM)は、多様なソフトウェアテストタスクに取り組むのに顕著な能力を示した。本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
論文参考訳（メタデータ） (2024-05-21T13:19:10Z)
Enhancing LLM-based Test Generation for Hard-to-Cover Branches via Program Analysis [8.31978033489419]
難解な分岐に到達可能なテストを生成する新しい技術である TELPA を提案する。 27のオープンソースPythonプロジェクトに対する実験結果から,TELPAは最先端のSBSTやLLMベースの技術よりも優れていたことが判明した。
論文参考訳（メタデータ） (2024-04-07T14:08:28Z)
On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。 LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文参考訳（メタデータ） (2024-02-15T22:01:45Z)
Identifying the Risks of LM Agents with an LM-Emulated Sandbox [68.26587052548287]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
論文参考訳（メタデータ） (2023-09-25T17:08:02Z)
Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文参考訳（メタデータ） (2023-07-24T19:59:22Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)
Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting Pot [71.28884625011987]
Melting PotはMARL評価スイートで、強化学習を使用して、新しいテストシナリオを作成するのに必要な人的労力を削減する。幅広い研究トピックをカバーする80以上のユニークなテストシナリオを作成しました。これらのテストシナリオを標準的なMARLトレーニングアルゴリズムに適用し、Melting Potがトレーニングのパフォーマンスだけでは明らかでない弱点をいかに明らかにするかを実証する。
論文参考訳（メタデータ） (2021-07-14T17:22:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。