論文の概要: PenForge: On-the-Fly Expert Agent Construction for Automated Penetration Testing
- arxiv url: http://arxiv.org/abs/2601.06910v1
- Date: Sun, 11 Jan 2026 13:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.060561
- Title: PenForge: On-the-Fly Expert Agent Construction for Automated Penetration Testing
- Title(参考訳): PenForge: 自動浸透テストのためのオンザフライ専門家エージェントの構築
- Authors: Huihui Huang, Jieke Shi, Junkai Chen, Ting Zhang, Yikun Li, Chengran Yang, Eng Lieh Ouh, Lwin Khin Shar, David Lo,
- Abstract要約: PenForgeは、事前に用意されたエージェントに頼るのではなく、テスト中に専門家エージェントを動的に構築するフレームワークである。
CVE-Benchのエクスプロイト成功率は30.0%で、特に難しいゼロデイ設定では、最先端よりも3倍改善されている。
- 参考スコア(独自算出の注目度): 13.699270001160302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Penetration testing is essential for identifying vulnerabilities in web applications before real adversaries can exploit them. Recent work has explored automating this process with Large Language Model (LLM)-powered agents, but existing approaches either rely on a single generic agent that struggles in complex scenarios or narrowly specialized agents that cannot adapt to diverse vulnerability types. We therefore introduce PenForge, a framework that dynamically constructs expert agents during testing rather than relying on those prepared beforehand. By integrating automated reconnaissance of potential attack surfaces with agents instantiated on the fly for context-aware exploitation, PenForge achieves a 30.0% exploit success rate (12/40) on CVE-Bench in the particularly challenging zero-day setting, which is a 3 times improvement over the state-of-the-art. Our analysis also identifies three opportunities for future work: (1) supplying richer tool-usage knowledge to improve exploitation effectiveness; (2) extending benchmarks to include more vulnerabilities and attack types; and (3) fostering developer trust by incorporating explainable mechanisms and human review. As an emerging result with substantial potential impact, PenForge embodies the early-stage yet paradigm-shifting idea of on-the-fly agent construction, marking its promise as a step toward scalable and effective LLM-driven penetration testing.
- Abstract(参考訳): 実際の敵がそれらを利用する前に、Webアプリケーションの脆弱性を特定するためには、浸透テストが不可欠である。
最近の研究では、このプロセスをLLM(Large Language Model)ベースのエージェントで自動化することを検討しているが、既存のアプローチでは、複雑なシナリオで苦労する単一のジェネリックエージェントに依存するか、さまざまな脆弱性タイプに適応できない限定されたエージェントに依存している。
そこで我々はPenForgeを紹介した。PenForgeはテスト中に、事前に用意されたエージェントに頼るのではなく、動的に専門家エージェントを構築するフレームワークである。
CVE-Benchにおける攻撃面の自動偵察とコンテキスト認識によるエクスプロイトのためのエージェントの統合により、PenForgeはCVE-Bench上で30.0%のエクスプロイト成功率(12/40)を達成した。
分析では,(1) ツール利用の知識を充実させ,利用効率を向上させること,(2) 脆弱性や攻撃タイプをより多く含めるようベンチマークを拡張すること,(3) 説明可能なメカニズムと人的レビューを取り入れて,開発者の信頼を高めること,の3つの可能性を明らかにした。
PenForgeは、潜在的な影響を生かした新たな成果として、オンザフライエージェント構築の初期段階だがパラダイムシフトのアイデアを具現化し、スケーラブルで効果的なLSM駆動型浸透試験へのステップとして、その約束を掲げている。
関連論文リスト
- Scaling Agents via Continual Pre-training [80.97989245493326]
我々は,エージェント連続事前学習(Agentic CPT)を深層研究エージェント訓練パイプラインに組み込んで,強力なエージェント基礎モデルを構築することを提案する。
我々は,AgentFounder-30Bを10のベンチマークで評価し,強力なツール使用能力を保ちながら最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2025-09-16T17:57:19Z) - Shell or Nothing: Real-World Benchmarks and Memory-Activated Agents for Automated Penetration Testing [23.554239007767276]
本稿では,世界初の実世界のエージェント指向ペンテストベンチマークTermiBenchを紹介する。
本稿では,多エージェント浸透試験フレームワークTermiAgentを提案する。
評価において,本研究は最先端のエージェントより優れ,より強力な浸透試験能力を示す。
論文 参考訳(メタデータ) (2025-09-11T07:30:44Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Why Are Web AI Agents More Vulnerable Than Standalone LLMs? A Security Analysis [47.34614558636679]
本研究では,WebAIエージェントの脆弱性の増加に寄与する要因について検討する。
我々は,WebAIエージェントの脆弱性を増幅する3つの重要な要因,(1)ユーザの目標をシステムプロンプトに埋め込んだこと,(2)マルチステップアクション生成,(3)観察能力の3つを特定した。
論文 参考訳(メタデータ) (2025-02-27T18:56:26Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。
セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文 参考訳(メタデータ) (2023-07-24T19:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。