論文の概要: Enhanced Web Payload Classification Using WAMM: An AI-Based Framework for Dataset Refinement and Model Evaluation
- arxiv url: http://arxiv.org/abs/2512.23610v1
- Date: Mon, 29 Dec 2025 17:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.593667
- Title: Enhanced Web Payload Classification Using WAMM: An AI-Based Framework for Dataset Refinement and Model Evaluation
- Title(参考訳): WAMMを用いたWeb Payload分類の強化:データセットのリファインメントとモデル評価のためのAIベースのフレームワーク
- Authors: Heba Osama, Omar Elebiary, Youssef Qassim, Mohamed Amgad, Ahmed Maghawry, Ahmed Saafan, Haitham Ghalwash,
- Abstract要約: WAMMは、ルールベースのシステムの限界を明らかにするために設計された、AI駆動のマルチクラスWeb攻撃検出フレームワークである。
XGBoostはマイクロ秒レベルの推論で99.59%の精度に達し、ディープラーニングモデルはノイズ増大の下で劣化する。
これらの発見は、広くデプロイされたルールベースの防御のギャップを明らかにし、効率的な機械学習モデルと組み合わせることで、実運用のWAF環境に適したWeb攻撃検出に対するよりレジリエントでリアルタイムなアプローチを可能にすることを実証している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web applications increasingly face evasive and polymorphic attack payloads, yet traditional web application firewalls (WAFs) based on static rule sets such as the OWASP Core Rule Set (CRS) often miss obfuscated or zero-day patterns without extensive manual tuning. This work introduces WAMM, an AI-driven multiclass web attack detection framework designed to reveal the limitations of rule-based systems by reclassifying HTTP requests into OWASP-aligned categories for a specific technology stack. WAMM applies a multi-phase enhancement pipeline to the SR-BH 2020 dataset that includes large-scale deduplication, LLM-guided relabeling, realistic attack data augmentation, and LLM-based filtering, producing three refined datasets. Four machine and deep learning models are evaluated using a unified feature space built from statistical and text-based representations. Results show that using an augmented and LLM-filtered dataset on the same technology stack, XGBoost reaches 99.59% accuracy with microsecond-level inference while deep learning models degrade under noisy augmentation. When tested against OWASP CRS using an unseen augmented dataset, WAMM achieves true positive block rates between 96 and 100% with improvements of up to 86%. These findings expose gaps in widely deployed rule-based defenses and demonstrate that curated training pipelines combined with efficient machine learning models enable a more resilient, real-time approach to web attack detection suitable for production WAF environments.
- Abstract(参考訳): しかし、OWASP Core Rule Set (CRS)のような静的ルールセットに基づいた従来のWebアプリケーションファイアウォール(WAF)は、広範囲なマニュアルチューニングなしで、難読化やゼロデイパターンを見逃してしまうことが多い。
WAMMは、HTTPリクエストを特定のテクノロジスタックのOWASP対応カテゴリに再分類することで、ルールベースのシステムの制限を明らかにするように設計された、AI駆動のマルチクラスWeb攻撃検出フレームワークである。
WAMMは、SR-BH 2020データセットにマルチフェーズ拡張パイプラインを適用しており、大規模な重複、LLM誘導型レザベリング、リアルアタックデータ拡張、LLMベースのフィルタリングを含み、3つの洗練されたデータセットを生成する。
4つの機械学習モデルとディープラーニングモデルは、統計的およびテキストベースの表現から構築された統合された特徴空間を用いて評価される。
その結果、XGBoostは同じ技術スタック上で拡張およびLLMフィルタリングデータセットを使用することで、マイクロ秒レベルの推論で99.59%の精度を達成し、ディープラーニングモデルはノイズの増大の下で劣化することがわかった。
未確認のデータセットを使用してOWASP CRSに対してテストすると、WAMMは96から100%の正のブロックレートを達成し、最大86%の改善を実現している。
これらの発見は、広くデプロイされたルールベースの防御のギャップを明らかにし、効率的な機械学習モデルと組み合わせることで、実運用のWAF環境に適したWeb攻撃検出に対するよりレジリエントでリアルタイムなアプローチを可能にすることを示した。
関連論文リスト
- Deepfake Detection that Generalizes Across Benchmarks [48.85953407706351]
ディープフェイク検出器の非表示操作技術への一般化は、実用的展開の課題である。
この研究は、基礎となる事前学習された視覚エンコーダのパラメータ効率適応により、ロバストな一般化が達成可能であることを示す。
提案手法は、平均的クロスデータセットAUROCにおける、より複雑な、最新のアプローチよりも優れた、最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-08T12:03:56Z) - ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - Enhancing web traffic attacks identification through ensemble methods and feature selection [1.3652530361013693]
本研究は,機械学習技術を活用して,Webトラフィック攻撃の識別を強化することを目的とする。
CSIC2010 v2データセットを用いて,HTTPトレースから関連する特徴を抽出する手法が提案された。
ランダムフォレスト (Random Forest) やエクストリームグラディエント・ブースティング (Extreme Gradient Boosting) のようなアンサンブル法が採用され、ベースライン分類器と比較された。
論文 参考訳(メタデータ) (2024-12-21T22:13:30Z) - Auto-GDA: Automatic Domain Adaptation for Efficient Grounding Verification in Retrieval-Augmented Generation [13.120801609024147]
検索強化生成(RAG)は,大規模言語モデル(LLM)出力の事実性を高めることが示されている。
RAG入力は、NLIモデルのトレーニングに使用されるほとんどのデータセットよりも複雑である。
教師なし領域適応を実現するために自動生成適応(Auto-GDA)を導入する。
論文 参考訳(メタデータ) (2024-10-04T14:21:27Z) - Achieving Byzantine-Resilient Federated Learning via Layer-Adaptive Sparsified Model Aggregation [7.200910949076064]
フェデレートラーニング(FL)は、複数のクライアントがローカルデータを共有せずに、協調的にモデルをトレーニングすることを可能にする。
しかし、FLシステムは、悪質なモデルの更新をアップロードすることでモデルのトレーニングプロセスを妨害することを目的とした、よく設計されたByzantine攻撃に対して脆弱である。
本稿では,階層的適応アグリゲーションと事前アグリゲーション・スパリフィケーションを組み合わせたLayer-Adaptive Sparsified Model Aggregation(LASA)手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T19:28:35Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Intrusion Detection System with Machine Learning and Multiple Datasets [0.0]
本稿では,機械学習(ML)を利用した拡張侵入検知システム(IDS)について検討する。
最終的に、この改良されたシステムは、非倫理的なハッカーによる攻撃に対抗するために使用できる。
論文 参考訳(メタデータ) (2023-12-04T14:58:19Z) - Scale-MIA: A Scalable Model Inversion Attack against Secure Federated Learning via Latent Space Reconstruction [25.668769232903117]
フェデレーション学習は、参加者のデータプライバシを保護する能力で知られている。
最近出現したモデルインバージョン攻撃 (MIA) は、悪意のあるパラメータサーバが、モデルの更新から個々のユーザーのローカルデータサンプルを再構築できることを示した。
集約されたモデル更新から局所的なトレーニングサンプルを効率的かつ正確に再構築できる新しいMIAであるScale-MIAを提案する。
論文 参考訳(メタデータ) (2023-11-10T00:53:22Z) - Robust Semi-supervised Federated Learning for Images Automatic
Recognition in Internet of Drones [57.468730437381076]
プライバシー保護型UAV画像認識のための半教師付きフェデレートラーニング(SSFL)フレームワークを提案する。
異なるカメラモジュールを使用したUAVによって収集されたローカルデータの数、特徴、分布には大きな違いがある。
本稿では,クライアントがトレーニングに参加する頻度,すなわちFedFreqアグリゲーションルールに基づくアグリゲーションルールを提案する。
論文 参考訳(メタデータ) (2022-01-03T16:49:33Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。