Fugu-MT 論文翻訳(概要): VulnBot: Autonomous Penetration Testing for A Multi-Agent Collaborative Framework

論文の概要: VulnBot: Autonomous Penetration Testing for A Multi-Agent Collaborative Framework

arxiv url: http://arxiv.org/abs/2501.13411v1
Date: Thu, 23 Jan 2025 06:33:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-25 03:58:51.896596
Title: VulnBot: Autonomous Penetration Testing for A Multi-Agent Collaborative Framework
Title（参考訳）: VulnBot: マルチエージェントコラボレーションフレームワークのための自動浸透テスト
Authors: He Kong, Die Hu, Jingguo Ge, Liangxiong Li, Tong Li, Bingzhen Wu,
Abstract要約: 既存の大規模言語モデル(LLM)を支援または自動化した浸透テストアプローチは、しばしば非効率に悩まされる。 VulnBotは複雑なタスクを、偵察、スキャン、エクスプロイトという3つの特別なフェーズに分割する。主なデザインの特徴は、役割の専門化、侵入経路計画、エージェント間コミュニケーション、生成的侵入行動である。
参考スコア（独自算出の注目度）: 4.802551205178858
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Penetration testing is a vital practice for identifying and mitigating vulnerabilities in cybersecurity systems, but its manual execution is labor-intensive and time-consuming. Existing large language model (LLM)-assisted or automated penetration testing approaches often suffer from inefficiencies, such as a lack of contextual understanding and excessive, unstructured data generation. This paper presents VulnBot, an automated penetration testing framework that leverages LLMs to simulate the collaborative workflow of human penetration testing teams through a multi-agent system. To address the inefficiencies and reliance on manual intervention in traditional penetration testing methods, VulnBot decomposes complex tasks into three specialized phases: reconnaissance, scanning, and exploitation. These phases are guided by a penetration task graph (PTG) to ensure logical task execution. Key design features include role specialization, penetration path planning, inter-agent communication, and generative penetration behavior. Experimental results demonstrate that VulnBot outperforms baseline models such as GPT-4 and Llama3 in automated penetration testing tasks, particularly showcasing its potential in fully autonomous testing on real-world machines.
Abstract（参考訳）: 侵入テストは、サイバーセキュリティシステムの脆弱性を特定し、緩和するための重要なプラクティスであるが、手作業による実行は労働集約的で時間を要する。既存の大規模言語モデル(LLM)を利用した自動浸透テスト手法は、文脈理解の欠如や過度に構造化されていないデータ生成などの非効率性に悩まされることが多い。本稿では,LLMを活用した自動貫入テストフレームワークであるVulnBotを紹介し,マルチエージェントシステムによる人間の貫入テストチームの協調ワークフローをシミュレーションする。従来の浸透試験手法における手動介入の非効率性と信頼性に対処するため、VulnBotは複雑なタスクを3つの特別なフェーズ(偵察、スキャン、利用)に分割する。これらのフェーズは、論理的タスク実行を保証するために、侵入タスクグラフ(PTG)によってガイドされる。主なデザインの特徴は、役割の専門化、侵入経路計画、エージェント間コミュニケーション、生成的侵入行動である。実験の結果、VulnBotはGPT-4やLlama3のようなベースラインモデルよりも、特に実世界のマシンで完全に自律的なテストを行う可能性を示している。

関連論文リスト

Multi-Agent Collaborative Intrusion Detection for Low-Altitude Economy IoT: An LLM-Enhanced Agentic AI Framework [60.72591149679355]
低高度経済の急速な拡大により、インターネット・オブ・モノ(LAE-IoT)ネットワークは前例のないセキュリティ上の課題を生んだ。従来の侵入検知システムは、空中IoT環境のユニークな特徴に対処できない。 LAE-IoTネットワークにおける侵入検出を強化するための大規模言語モデル(LLM)対応エージェントAIフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-25T12:47:25Z)
It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文参考訳（メタデータ） (2025-12-29T01:09:10Z)
Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文参考訳（メタデータ） (2025-12-18T08:38:44Z)
SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文参考訳（メタデータ） (2025-11-29T09:18:39Z)
xOffense: An AI-driven autonomous penetration testing framework with offensive knowledge-enhanced LLMs and multi agent systems [0.402058998065435]
xOffenseはAI駆動のマルチエージェント浸透テストフレームワークである。プロセスは、労働集約的で専門家主導のマニュアル作業から、完全に自動化され、マシン実行可能なスケーリングへと、計算インフラストラクチャとシームレスに移行します。
論文参考訳（メタデータ） (2025-09-16T12:45:45Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
AgentOrca: A Dual-System Framework to Evaluate Language Agents on Operational Routine and Constraint Adherence [54.317522790545304]
本稿では,言語エージェントの動作制約やルーチンに対するコンプライアンスを評価するための,デュアルシステムフレームワークであるAgentOrcaを提案する。本フレームワークは,エージェントの自然言語プロンプトと,それに対応する実行可能コードが,自動検証のための基礎的真理として機能することを通じて,行動制約とルーチンを符号化する。以上の結果から,o1のような大きな推論モデルではコンプライアンスが良好であり,他のモデルではパフォーマンスが著しく低下していることが明らかとなった。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。大規模なマルチベンチマークWebエージェント実験を初めて実施する。結果は、OpenAIとAnthropicの最新モデルの大きな相違点を浮き彫りにしている。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)
PentestAgent: Incorporating LLM Agents to Automated Penetration Testing [6.815381197173165]
手動浸透試験は時間と費用がかかる。大規模言語モデル(LLM)の最近の進歩は、浸透テストを強化する新たな機会を提供する。我々は,新しいLLMベースの自動浸透試験フレームワークであるPentestAgentを提案する。
論文参考訳（メタデータ） (2024-11-07T21:10:39Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
Hacking, The Lazy Way: LLM Augmented Pentesting [0.0]
我々は、"Pentest Copilot"というツールを使って、"LLM Augmented Pentesting"という新しい概念を紹介した。提案手法は, LLMを用いて特定のサブタスクを自動化することにより, 浸透試験における自動化に対する従来の抵抗を克服することに焦点を当てる。 Pentest Copilotは、テストツールの利用、アウトプットの解釈、フォローアップアクションの提案など、タスクの卓越した熟練度を示す。
論文参考訳（メタデータ） (2024-09-14T17:40:35Z)
CIPHER: Cybersecurity Intelligent Penetration-testing Helper for Ethical Researcher [1.6652242654250329]
本研究は,Cybersecurity Intelligent Peretration-testing Helper for Ethical researchers (CIPHER)を開発した。私たちは、脆弱なマシンの300以上の高品質な書き込み、ハッキングテクニック、オープンソースの侵入テストツールのドキュメントを使用してCIPHERをトレーニングしました。本研究では,完全自動ペンテスティング・シミュレーション・ベンチマークを確立するために,書込みテストの拡張手法であるFinderings, Action, Reasoning, Results (FARR) Flow Augmentationを紹介する。
論文参考訳（メタデータ） (2024-08-21T14:24:04Z)
On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。 LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文参考訳（メタデータ） (2024-02-15T22:01:45Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
PentestGPT: An LLM-empowered Automatic Penetration Testing Tool [20.449761406790415]
大規模言語モデル(LLM)は、様々な領域において大きな進歩を見せている。実世界の浸透試験におけるLLMの性能を,プラットフォームを用いたテストマシンから作成した頑健なベンチマークを用いて評価した。 LLMを利用した自動浸透試験ツールであるPentestGPTを紹介する。
論文参考訳（メタデータ） (2023-08-13T14:35:50Z)
Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文参考訳（メタデータ） (2023-07-24T19:59:22Z)
Demonstration-Guided Reinforcement Learning with Efficient Exploration for Task Automation of Surgical Robot [54.80144694888735]
効率的な強化学習アルゴリズムであるDEX(Demonstration-Guided Exploration)を導入する。本手法は,生産的相互作用を促進するために,高い値で専門家のような行動を推定する。総合的な手術シミュレーションプラットフォームであるSurRoLによる10ドルの手術操作に関する実験では、大幅な改善が示されている。
論文参考訳（メタデータ） (2023-02-20T05:38:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。