論文の概要: xOffense: An AI-driven autonomous penetration testing framework with offensive knowledge-enhanced LLMs and multi agent systems
- arxiv url: http://arxiv.org/abs/2509.13021v1
- Date: Tue, 16 Sep 2025 12:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.080817
- Title: xOffense: An AI-driven autonomous penetration testing framework with offensive knowledge-enhanced LLMs and multi agent systems
- Title(参考訳): xOffense: 攻撃的知識強化LLMとマルチエージェントシステムを備えたAI駆動の自律浸透試験フレームワーク
- Authors: Phung Duc Luong, Le Tran Gia Bao, Nguyen Vu Khai Tam, Dong Huu Nguyen Khoa, Nguyen Huu Quyen, Van-Hau Pham, Phan The Duy,
- Abstract要約: xOffenseはAI駆動のマルチエージェント浸透テストフレームワークである。
プロセスは、労働集約的で専門家主導のマニュアル作業から、完全に自動化され、マシン実行可能なスケーリングへと、計算インフラストラクチャとシームレスに移行します。
- 参考スコア(独自算出の注目度): 0.402058998065435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces xOffense, an AI-driven, multi-agent penetration testing framework that shifts the process from labor-intensive, expert-driven manual efforts to fully automated, machine-executable workflows capable of scaling seamlessly with computational infrastructure. At its core, xOffense leverages a fine-tuned, mid-scale open-source LLM (Qwen3-32B) to drive reasoning and decision-making in penetration testing. The framework assigns specialized agents to reconnaissance, vulnerability scanning, and exploitation, with an orchestration layer ensuring seamless coordination across phases. Fine-tuning on Chain-of-Thought penetration testing data further enables the model to generate precise tool commands and perform consistent multi-step reasoning. We evaluate xOffense on two rigorous benchmarks: AutoPenBench and AI-Pentest-Benchmark. The results demonstrate that xOffense consistently outperforms contemporary methods, achieving a sub-task completion rate of 79.17%, decisively surpassing leading systems such as VulnBot and PentestGPT. These findings highlight the potential of domain-adapted mid-scale LLMs, when embedded within structured multi-agent orchestration, to deliver superior, cost-efficient, and reproducible solutions for autonomous penetration testing.
- Abstract(参考訳): この研究は、AI駆動のマルチエージェント貫入テストフレームワークであるxOffenseを導入し、労働集約的な専門家主導の手作業から、計算インフラストラクチャとシームレスにスケーリング可能な、完全に自動化されたマシン実行可能なワークフローへとプロセスを移行した。
xOffenseの中核は、微調整された中規模のオープンソースLLM(Qwen3-32B)を活用して、侵入テストにおける推論と意思決定を推進している。
このフレームワークは、特別なエージェントを偵察、脆弱性スキャン、エクスプロイトに割り当て、フェーズ間のシームレスな調整を保証するオーケストレーション層を備えている。
Chain-of-Thoughtの浸透テストデータの微調整により、モデルはさらに正確なツールコマンドを生成し、一貫性のあるマルチステップ推論を実行することができる。
我々は、AutoPenBenchとAI-Pentest-Benchmarkの2つの厳密なベンチマークでxOffenseを評価する。
結果は、xOffenseが現代の手法を一貫して上回り、79.17%のサブタスク完了率を達成し、VulnBotやPentestGPTといった先進的なシステムを決定的に上回っていることを示している。
これらの知見は、ドメイン適応型中規模LLMが、構造化されたマルチエージェントオーケストレーションに組み込まれて、自律的な浸透テストのための優れた、コスト効率、再現可能なソリューションを提供する可能性を強調している。
関連論文リスト
- InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [71.37579508777843]
大規模言語モデル(LLM)は、複雑な推論機能を実現することによって、人工知能に革命をもたらした。
このギャップに対処するため、1000以上のドメイン分散タスク環境からなるオープンソースのフレームワークであるInternBootcampを紹介します。
論文 参考訳(メタデータ) (2025-08-12T05:00:00Z) - VulnBot: Autonomous Penetration Testing for A Multi-Agent Collaborative Framework [4.802551205178858]
既存の大規模言語モデル(LLM)を支援または自動化した浸透テストアプローチは、しばしば非効率に悩まされる。
VulnBotは複雑なタスクを、偵察、スキャン、エクスプロイトという3つの特別なフェーズに分割する。
主なデザインの特徴は、役割の専門化、侵入経路計画、エージェント間コミュニケーション、生成的侵入行動である。
論文 参考訳(メタデータ) (2025-01-23T06:33:05Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - PentestAgent: Incorporating LLM Agents to Automated Penetration Testing [6.815381197173165]
手動浸透試験は時間と費用がかかる。
大規模言語モデル(LLM)の最近の進歩は、浸透テストを強化する新たな機会を提供する。
我々は,新しいLLMベースの自動浸透試験フレームワークであるPentestAgentを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:10:39Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。