論文の概要: AutoPentest: Enhancing Vulnerability Management With Autonomous LLM Agents
- arxiv url: http://arxiv.org/abs/2505.10321v1
- Date: Thu, 15 May 2025 14:06:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.348958
- Title: AutoPentest: Enhancing Vulnerability Management With Autonomous LLM Agents
- Title(参考訳): AutoPentest: 自律LLMエージェントによる脆弱性管理の強化
- Authors: Julius Henke,
- Abstract要約: 我々は,高い自律性でブラックボックス浸透試験を行うアプリケーションであるAutoPentestを提案する。
本稿では,ChatGPT-4oユーザインタフェースを手動で使用するベースラインアプローチとAutoPentestの実装を比較した。
どちらのアプローチも、HTBマシンのサブタスクの15~25パーセントを完了でき、AutoPentestはChatGPTをわずかに上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent area of increasing research is the use of Large Language Models (LLMs) in penetration testing, which promises to reduce costs and thus allow for higher frequency. We conduct a review of related work, identifying best practices and common evaluation issues. We then present AutoPentest, an application for performing black-box penetration tests with a high degree of autonomy. AutoPentest is based on the LLM GPT-4o from OpenAI and the LLM agent framework LangChain. It can perform complex multi-step tasks, augmented by external tools and knowledge bases. We conduct a study on three capture-the-flag style Hack The Box (HTB) machines, comparing our implementation AutoPentest with the baseline approach of manually using the ChatGPT-4o user interface. Both approaches are able to complete 15-25 % of the subtasks on the HTB machines, with AutoPentest slightly outperforming ChatGPT. We measure a total cost of \$96.20 US when using AutoPentest across all experiments, while a one-month subscription to ChatGPT Plus costs \$20. The results show that further implementation efforts and the use of more powerful LLMs released in the future are likely to make this a viable part of vulnerability management.
- Abstract(参考訳): 最近の研究が増えている分野は、浸透試験におけるLarge Language Models (LLMs) の利用である。
関連作業のレビューを行い、ベストプラクティスと一般的な評価問題を特定します。
次に、高い自律性でブラックボックス浸透テストを実行するアプリケーションであるAutoPentestを紹介します。
AutoPentest は OpenAI の LLM GPT-4o と LLM エージェントフレームワーク LangChain に基づいている。
複雑なマルチステップタスクを実行でき、外部ツールや知識ベースによって強化される。
本稿では,3台のHack The Box(HTB)マシンについて検討を行い,その実装とChatGPT-4oユーザインタフェースを手動で使用するベースラインアプローチとの比較を行った。
どちらのアプローチも、HTBマシンのサブタスクの15~25パーセントを完了でき、AutoPentestはChatGPTをわずかに上回っている。
すべての実験でAutoPentestを使用する場合、合計コストは96.20米ドルであり、ChatGPT Plusの1ヶ月のサブスクリプションは20ドルである。
その結果、将来的には、さらなる実装の取り組みと、より強力なLLMの使用により、脆弱性管理の現実的な部分となる可能性が示唆された。
関連論文リスト
- LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。
私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。
私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文 参考訳(メタデータ) (2025-01-15T05:51:20Z) - A Multi-Agent Approach for REST API Testing with Semantic Graphs and LLM-Driven Inputs [46.65963514391019]
私たちは、REST APIテストに依存性組み込みのマルチエージェントアプローチを採用する最初のブラックボックスツールであるAutoRestTestを紹介します。
このアプローチでは、REST APIテストを分離可能な問題として扱い、4人のエージェントがAPI探索を最適化するために協力します。
12の現実世界のRESTサービス上でのAutoRestTestの評価は、主要な4つのブラックボックスREST APIテストツールよりも優れています。
論文 参考訳(メタデータ) (2024-11-11T16:20:27Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - Enabling Cost-Effective UI Automation Testing with Retrieval-Based LLMs: A Case Study in WeChat [8.80569452545511]
機械学習と大規模言語モデルを組み合わせることで、業界アプリケーションのためのコスト効率の良いUI自動化テストを作成するために、CATを導入します。
次にCATは機械学習技術を採用し、LLMを補完として、ターゲット要素をUI画面にマップする。
WeChatテストデータセットの評価では、CATのパフォーマンスとコスト効率が示され、90%のUI自動化と0.34ドルのコストが達成されました。
論文 参考訳(メタデータ) (2024-09-12T08:25:33Z) - AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。
大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z) - AutoMix: Automatically Mixing Language Models [62.51238143437967]
大規模言語モデル(LLM)は、さまざまなサイズと構成のクラウドAPIプロバイダから利用可能になった。
より小さなLMからの出力の近似精度に基づいて,クエリを大規模LMに戦略的にルーティングする手法であるAutomixを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:57:39Z) - PentestGPT: An LLM-empowered Automatic Penetration Testing Tool [20.449761406790415]
大規模言語モデル(LLM)は、様々な領域において大きな進歩を見せている。
実世界の浸透試験におけるLLMの性能を,プラットフォームを用いたテストマシンから作成した頑健なベンチマークを用いて評価した。
LLMを利用した自動浸透試験ツールであるPentestGPTを紹介する。
論文 参考訳(メタデータ) (2023-08-13T14:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。