論文の概要: Vulnerability Mitigation System (VMS): LLM Agent and Evaluation Framework for Autonomous Penetration Testing
- arxiv url: http://arxiv.org/abs/2507.21113v1
- Date: Mon, 14 Jul 2025 06:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-03 20:19:02.889615
- Title: Vulnerability Mitigation System (VMS): LLM Agent and Evaluation Framework for Autonomous Penetration Testing
- Title(参考訳): Vulnerability Mitigation System (VMS): LLM Agent and Evaluation Framework for autonomous peretration Testing
- Authors: Farzana Abdulzada,
- Abstract要約: 人間の介入なしに侵入試験を行うことのできる脆弱性軽減システム(VMS)を提案する。
VMSには、計画のための2つのアーキテクチャと、コマンドの生成とフィードバックの処理を可能にするSummarizerがある。
テストの標準化のために,PicoCTFとOverTheWireをベースとした2つの新しいCapture the Flagベンチマークを設計した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the frequency of cyber threats increases, conventional penetration testing is failing to capture the entirety of todays complex environments. To solve this problem, we propose the Vulnerability Mitigation System (VMS), a novel agent based on a Large Language Model (LLM) capable of performing penetration testing without human intervention. The VMS has a two-part architecture for planning and a Summarizer, which enable it to generate commands and process feedback. To standardize testing, we designed two new Capture the Flag (CTF) benchmarks based on the PicoCTF and OverTheWire platforms with 200 challenges. These benchmarks allow us to evaluate how effectively the system functions. We performed a number of experiments using various LLMs while tuning the temperature and top-p parameters and found that GPT-4o performed best, sometimes even better than expected. The results indicate that LLMs can be effectively applied to many cybersecurity tasks; however, there are risks. To ensure safe operation, we used a containerized environment. Both the VMS and the benchmarks are publicly available, advancing the creation of secure, autonomous cybersecurity tools.
- Abstract(参考訳): サイバー脅威の頻度が増加するにつれて、従来の浸透試験は、今日の複雑な環境全体を捉えるのに失敗している。
この問題を解決するために,人間の介入なしに侵入試験を行うことができるLarge Language Model (LLM) に基づく新しいエージェントである Vulnerability Mitigation System (VMS) を提案する。
VMSには、計画のための2つのアーキテクチャと、コマンドの生成とフィードバックの処理を可能にするSummarizerがある。
テストの標準化のために、200の課題を伴うPicoCTFとOverTheWireプラットフォームに基づく2つの新しいCapture the Flag(CTF)ベンチマークを設計しました。
これらのベンチマークにより、システム機能の有効性を評価することができる。
温度とトップpパラメータを調整しながら様々なLSMを用いて多数の実験を行い、GPT-4oが期待以上に高い性能を示した。
その結果、LSMは多くのサイバーセキュリティタスクに効果的に適用できることが示されたが、リスクがある。
安全な運用を確保するため、コンテナ化された環境を使用しました。
VMSとベンチマークの両方が公開されており、セキュアで自律的なサイバーセキュリティツールの開発が進められている。
関連論文リスト
- Autonomous Penetration Testing: Solving Capture-the-Flag Challenges with LLMs [0.0]
本研究は,OverTheWireのBanditキャプチャ・ザ・フラッグゲームにモデルを接続することにより,GPT-4oが初心者レベルの攻撃的セキュリティタスクを自律的に解く能力を評価する。
技術的に単一コマンドSSHフレームワークと互換性のある25のレベルのうち、GPT-4oは18の無効化と、全体の80%の成功率を示す最小のプロンプトのヒントの後に2のレベルを解決した。
論文 参考訳(メタデータ) (2025-08-01T20:11:58Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - HackSynth: LLM Agent and Evaluation Framework for Autonomous Penetration Testing [0.0]
本稿では,Large Language Model (LLM) をベースとした,自律的な浸透試験が可能なエージェントであるHack Synthを紹介する。
Hack Synthをベンチマークするために、人気のあるプラットフォームであるPicoCTFとOverTheWireを利用する2つの新しいCapture The Flag(CTF)ベースのベンチマークセットを提案する。
論文 参考訳(メタデータ) (2024-12-02T18:28:18Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks [0.0]
言語モデル(LLM)と浸透試験の共通点について検討する。
本稿では,LLMの(倫理的)ハッキングに対する有効性を評価するための,完全自動特権エスカレーションツールを提案する。
我々は,異なるコンテキストサイズ,コンテキスト内学習,任意の高レベルメカニズム,メモリ管理技術の影響を分析する。
論文 参考訳(メタデータ) (2023-10-17T17:15:41Z) - Identifying the Risks of LM Agents with an LM-Emulated Sandbox [68.26587052548287]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。
これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。
ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
論文 参考訳(メタデータ) (2023-09-25T17:08:02Z) - Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。
セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文 参考訳(メタデータ) (2023-07-24T19:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。