論文の概要: Multi-Agent Penetration Testing AI for the Web
- arxiv url: http://arxiv.org/abs/2508.20816v1
- Date: Thu, 28 Aug 2025 14:14:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.441123
- Title: Multi-Agent Penetration Testing AI for the Web
- Title(参考訳): Webのためのマルチエージェント貫入テストAI
- Authors: Isaac David, Arthur Gervais,
- Abstract要約: MAPTAは、自動Webアプリケーションセキュリティアセスメントのためのマルチエージェントシステムである。
大規模な言語モデルのオーケストレーションとツール地上実行とエンドツーエンドのエクスプロイトバリデーションを組み合わせたものだ。
104Challenge XBOWベンチマークでは、MAPTAは76.9%の成功を収めた。
- 参考スコア(独自算出の注目度): 3.93181912653522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-powered development platforms are making software creation accessible to a broader audience, but this democratization has triggered a scalability crisis in security auditing. With studies showing that up to 40% of AI-generated code contains vulnerabilities, the pace of development now vastly outstrips the capacity for thorough security assessment. We present MAPTA, a multi-agent system for autonomous web application security assessment that combines large language model orchestration with tool-grounded execution and end-to-end exploit validation. On the 104-challenge XBOW benchmark, MAPTA achieves 76.9% overall success with perfect performance on SSRF and misconfiguration vulnerabilities, 83% success on broken authorization, and strong results on injection attacks including server-side template injection (85%) and SQL injection (83%). Cross-site scripting (57%) and blind SQL injection (0%) remain challenging. Our comprehensive cost analysis across all challenges totals $21.38 with a median cost of $0.073 for successful attempts versus $0.357 for failures. Success correlates strongly with resource efficiency, enabling practical early-stopping thresholds at approximately 40 tool calls or $0.30 per challenge. MAPTA's real-world findings are impactful given both the popularity of the respective scanned GitHub repositories (8K-70K stars) and MAPTA's low average operating cost of $3.67 per open-source assessment: MAPTA discovered critical vulnerabilities including RCEs, command injections, secret exposure, and arbitrary file write vulnerabilities. Findings are responsibly disclosed, 10 findings are under CVE review.
- Abstract(参考訳): AIで動く開発プラットフォームは、ソフトウェア作成を幅広いオーディエンスに利用できるようにするものだが、この民主化はセキュリティ監査におけるスケーラビリティの危機を引き起こしている。
AIが生成するコードの40%が脆弱性を含んでいるという研究結果によって、開発ペースは、完全なセキュリティアセスメントの能力を大幅に超えている。
本稿では,大規模言語モデルのオーケストレーションとツールグラウンド実行とエンドツーエンドのエクスプロイトバリデーションを組み合わせた,自動WebアプリケーションセキュリティアセスメントのためのマルチエージェントシステムMAPTAを提案する。
104-challenge XBOWベンチマークでは、MAPTAが76.9%の成功を達成し、SSRFでの完全なパフォーマンスと設定ミスの脆弱性、83%の成功、サーバサイドのテンプレートインジェクション(85%)やSQLインジェクション(83%)を含むインジェクションアタックの強力な結果を達成した。
クロスサイトスクリプティング(57%)と盲点SQLインジェクション(0%)は依然として難しい。
総合的なコスト分析では、すべての課題が21.38ドル、成功試験が0.073ドル、失敗が0.357ドルとなっている。
成功はリソース効率と強く相関しており、実際の早期停止しきい値が約40のツールコールで可能か、1チャレンジあたり0.30ドルである。
MAPTAの現実的な発見は、スキャンされたGitHubリポジトリ(8K-70K星)の人気と、オープンソースアセスメント当たりの平均運用コストが3.67ドルであることから、影響が大きい。
発見は無責任に開示され、10件の発見がCVEの審査下にある。
関連論文リスト
- AWE: Adaptive Agents for Dynamic Web Penetration Testing [0.0]
AWEは、自動Web侵入テストのためのメモリ拡張マルチエージェントフレームワークである。
軽量なLLMオーケストレーション層に、構造化された脆弱性固有の分析パイプラインを組み込む。
AWEはインジェクションクラスの脆弱性を大幅に向上させる。
論文 参考訳(メタデータ) (2026-03-01T07:32:42Z) - CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability [50.57373283154859]
CVE-Factoryは、脆弱性タスクを自動変換するエキスパートレベルの品質を実現するための、最初のマルチエージェントフレームワークである。
最新の現実的な脆弱性についても評価され、66.2%の成功が証明されている。
コードセキュリティにおけるエージェントタスクの大規模スケーリングとして,1000以上の実行可能なトレーニング環境を合成する。
論文 参考訳(メタデータ) (2026-02-03T02:27:16Z) - An Effective and Cost-Efficient Agentic Framework for Ethereum Smart Contract Auditing [8.735899453872966]
Heimdallrは,4つのコアイノベーションを通じてハードルを克服するために設計された,自動監査エージェントだ。
重要なビジネスロジックを保持しながら、コンテキストオーバーヘッドを最小限にします。
複雑な脆弱性を検出し、機能的なエクスプロイトを自動的にチェーンする。
論文 参考訳(メタデータ) (2026-01-25T13:28:37Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - WebGuard: Building a Generalizable Guardrail for Web Agents [59.31116061613742]
WebGuardは、Webエージェントアクションリスクの評価をサポートするために設計された最初のデータセットである。
その中には、22のドメインにわたる193のWebサイトからの4,939の人手によるアノテートアクションが含まれている。
論文 参考訳(メタデータ) (2025-07-18T18:06:27Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - PoCGen: Generating Proof-of-Concept Exploits for Vulnerabilities in Npm Packages [16.130469984234956]
PoCGenは、npmパッケージの脆弱性に対するPoCエクスプロイトを自動生成し、検証する新しいアプローチである。
大規模な言語モデル(LLM)をPoCエクスプロイト生成のための静的および動的解析技術と併用する、初めての完全自律型アプローチである。
論文 参考訳(メタデータ) (2025-06-05T12:37:33Z) - CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale [46.76144797837242]
大規模言語モデル(LLM)エージェントは、自律的なサイバーセキュリティタスクの処理において、ますます熟練している。
既存のベンチマークは不足していて、現実のシナリオをキャプチャできなかったり、スコープが限られていたりします。
我々はCyberGymを紹介した。CyberGymは1,507の現実世界の脆弱性を特徴とする大規模かつ高品質なサイバーセキュリティ評価フレームワークである。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。
脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。
Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文 参考訳(メタデータ) (2025-05-21T07:44:52Z) - Does the Vulnerability Threaten Our Projects? Automated Vulnerable API Detection for Third-Party Libraries [11.012017507408078]
本稿では,TPLの脆弱性の原因となる脆弱性のあるルートメソッドを効果的に同定できるVAScannerを提案する。
VAScannerは、5.78%の偽陽性と2.16%の偽陰性を除去する。
脆弱性のあるTPLを使用した3,147のプロジェクトの大規模な分析では、脆弱性のあるAPIによって21.51%のプロジェクトが脅かされていることがわかった。
論文 参考訳(メタデータ) (2024-09-04T14:31:16Z) - Static Application Security Testing (SAST) Tools for Smart Contracts: How Far Are We? [14.974832502863526]
近年,スマートコントラクトセキュリティの重要性が高まっている。
この問題に対処するため、スマートコントラクトの脆弱性を検出するために、多数の静的アプリケーションセキュリティテスト(SAST)ツールが提案されている。
本稿では,スマートコントラクトに対する45種類の脆弱性を含む,最新のきめ細かな分類法を提案する。
論文 参考訳(メタデータ) (2024-04-28T13:40:18Z) - LLMs in Web Development: Evaluating LLM-Generated PHP Code Unveiling Vulnerabilities and Limitations [0.0]
本研究では,大規模言語モデルが生成するWebアプリケーションのセキュリティを評価し,2500 GPT-4生成PHP Webサイトを分析した。
本研究は,GPT-4 生成 PHP コード中の Insecure File Upload,sql Injection, Stored XSS, Reflected XSS の同定に重点を置いている。
BurpのScanによると、サイトの11.56%は、すぐに妥協できる。静的スキャンの結果が加わった26%には、Webインタラクションを通じて悪用できる少なくとも1つの脆弱性があった。
論文 参考訳(メタデータ) (2024-04-21T20:56:02Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。