論文の概要: AWE: Adaptive Agents for Dynamic Web Penetration Testing
- arxiv url: http://arxiv.org/abs/2603.00960v1
- Date: Sun, 01 Mar 2026 07:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.432468
- Title: AWE: Adaptive Agents for Dynamic Web Penetration Testing
- Title(参考訳): AWE:動的Web浸透テストのための適応エージェント
- Authors: Akshat Singh Jaswal, Ashish Baghel,
- Abstract要約: AWEは、自動Web侵入テストのためのメモリ拡張マルチエージェントフレームワークである。
軽量なLLMオーケストレーション層に、構造化された脆弱性固有の分析パイプラインを組み込む。
AWEはインジェクションクラスの脆弱性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern web applications are increasingly produced through AI-assisted development and rapid no-code deployment pipelines, widening the gap between accelerating software velocity and the limited adaptability of existing security tooling. Pattern-driven scanners fail to reason about novel contexts, while emerging LLM-based penetration testers rely on unconstrained exploration, yielding high cost, unstable behavior, and poor reproducibility. We introduce AWE, a memory-augmented multi-agent framework for autonomous web penetration testing that embeds structured, vulnerability-specific analysis pipelines within a lightweight LLM orchestration layer. Unlike general-purpose agents, AWE couples context aware payload mutations and generations with persistent memory and browser-backed verification to produce deterministic, exploitation-driven results. Evaluated on the 104-challenge XBOW benchmark, AWE achieves substantial gains on injection-class vulnerabilities - 87% XSS success (+30.5% over MAPTA) and 66.7% blind SQL injection success (+33.3%) - while being much faster, cheaper, and more token-efficient than MAPTA, despite using a midtier model (Claude Sonnet 4) versus MAPTA's GPT-5. MAPTA retains higher overall coverage due to broader exploratory capabilities, underscoring the complementary strengths of specialized and general-purpose architectures. Our results demonstrate that architecture matters as much as model reasoning capabilities: integrating LLMs into principled, vulnerability-aware pipelines yields substantial gains in accuracy, efficiency, and determinism for injection-class exploits. The source code for AWE is available at: https://github.com/stuxlabs/AWE
- Abstract(参考訳): 現代のWebアプリケーションは、AI支援開発と迅速なノーコードデプロイメントパイプラインを通じて、ソフトウェアベロシティの加速と既存のセキュリティツールの適応性に制限のあるギャップを広げて、ますます大きくなっている。
パターン駆動型スキャナーは、新しい文脈の推論に失敗し、新興のLCMベースの浸透テストは、制約のない探索に依存し、高いコスト、不安定な振る舞い、再現性に欠ける。
我々は、軽量なLLMオーケストレーション層に構造化された脆弱性固有の分析パイプラインを組み込んだ、自律的なWeb浸透テストのためのメモリ拡張マルチエージェントフレームワークであるAWEを紹介する。
汎用エージェントとは異なり、AWEはコンテクストを意識したペイロードの突然変異と世代を、永続メモリとブラウザが支援する検証で結合し、決定論的でエクスプロレーション駆動の結果を生成する。
104-challenge XBOWベンチマークで評価され、AWEは87%のXSS成功(MAPTAより30.5%)と66.7%の盲目SQLインジェクション成功(+33.3%)というインジェクションクラスの脆弱性に対して、中級モデル(Claude Sonnet 4)とMAPTAのGPT-5を使用したにもかかわらず、MAPTAよりもはるかに高速で安価でトークン効率が高い。
MAPTAは、より広範な探索能力により、より全体的な範囲を保ち、専門的および汎用的なアーキテクチャの補完的な強みを強調している。
LLMを原則として,脆弱性対応パイプラインに統合することで,インジェクションクラスのエクスプロイトに対する精度,効率,決定性が大幅に向上する。
AWEのソースコードは、https://github.com/stuxlabs/AWEで入手できる。
関連論文リスト
- Sifting the Noise: A Comparative Study of LLM Agents in Vulnerability False Positive Filtering [2.5335007441696384]
ソフトウェア脆弱性を特定するには静的アプリケーションセキュリティテスト(SAST)ツールが不可欠だ。
SASTツールは、しばしば大量の偽陽性(FP)を生成する。
LLM(Large Language Model)エージェントの最近の進歩は、有望な方向性を提供する。
論文 参考訳(メタデータ) (2026-01-30T13:14:55Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - What Limits Agentic Systems Efficiency? [6.355808944609144]
既存の研究は主に推論性能に焦点を当てており、しばしばエージェントシステムの効率を無視する。
エンドツーエンドのレイテンシを,APIレイテンシとWeb環境レイテンシという,2つの主要コンポーネントに分解します。
我々は、Web環境のオーバーヘッドを低減できる投機的実行を付加したキャッシュフレームワークであるSpecCacheを提案する。
論文 参考訳(メタデータ) (2025-10-18T00:21:45Z) - AI Agentic Vulnerability Injection And Transformation with Optimized Reasoning [2.918225266151982]
AVIATORはAIによる最初の脆弱性注入ワークフローである。
高忠実で多様な大規模な脆弱性データセット生成のために、現実的でカテゴリ固有の脆弱性を自動的に注入する。
セマンティック分析、LoRAベースのファインチューニングとRetrieval-Augmented Generationで強化されたインジェクション合成、静的解析とLLMベースの識別器によるインジェクション後の検証を組み合わせる。
論文 参考訳(メタデータ) (2025-08-28T14:59:39Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - EXPLICATE: Enhancing Phishing Detection through Explainable AI and LLM-Powered Interpretability [44.2907457629342]
EXPLICATEは、三成分アーキテクチャによるフィッシング検出を強化するフレームワークである。
既存のディープラーニング技術と同等ですが、説明性が向上しています。
自動AIとフィッシング検出システムにおけるユーザ信頼の重大な隔たりに対処する。
論文 参考訳(メタデータ) (2025-03-22T23:37:35Z) - Evaluating and Improving the Robustness of Security Attack Detectors Generated by LLMs [6.517076600304129]
大規模言語モデル(LLM)は、セキュリティ要件を実装するアタック検出器などの関数を生成するために、ソフトウェア開発でますます使われている。
本稿では,LLMパイプラインに検索拡張生成(RAG)とセルフランキングを統合するアプローチを提案する。
RAGは外部知識源を取り入れて出力の堅牢性を高める一方、自己整合性の概念にインスパイアされたセルフランキング技術は複数の推論経路を生成し、最も堅牢な検出器を選択するランクを生成する。
論文 参考訳(メタデータ) (2024-11-27T10:48:37Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。