論文の概要: Leveraging LLM to Strengthen ML-Based Cross-Site Scripting Detection
- arxiv url: http://arxiv.org/abs/2504.21045v1
- Date: Mon, 28 Apr 2025 15:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-10 00:07:58.196399
- Title: Leveraging LLM to Strengthen ML-Based Cross-Site Scripting Detection
- Title(参考訳): MLに基づくクロスサイトスクリプティング検出のためのLLMの活用
- Authors: Dennis Miczek, Divyesh Gabbireddy, Suman Saha,
- Abstract要約: クロスサイトスクリプティング(XSS)は、セキュリティ上の脆弱性のトップ10に留まっている。
複雑な難読化XSSペイロードを自動的に生成するために、LLM(Large Language Model)を微調整する。
我々のアプローチは、難読化データセットで99.5%の精度を達成した。
- 参考スコア(独自算出の注目度): 1.6334609937053302
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: According to the Open Web Application Security Project (OWASP), Cross-Site Scripting (XSS) is a critical security vulnerability. Despite decades of research, XSS remains among the top 10 security vulnerabilities. Researchers have proposed various techniques to protect systems from XSS attacks, with machine learning (ML) being one of the most widely used methods. An ML model is trained on a dataset to identify potential XSS threats, making its effectiveness highly dependent on the size and diversity of the training data. A variation of XSS is obfuscated XSS, where attackers apply obfuscation techniques to alter the code's structure, making it challenging for security systems to detect its malicious intent. Our study's random forest model was trained on traditional (non-obfuscated) XSS data achieved 99.8% accuracy. However, when tested against obfuscated XSS samples, accuracy dropped to 81.9%, underscoring the importance of training ML models with obfuscated data to improve their effectiveness in detecting XSS attacks. A significant challenge is to generate highly complex obfuscated code despite the availability of several public tools. These tools can only produce obfuscation up to certain levels of complexity. In our proposed system, we fine-tune a Large Language Model (LLM) to generate complex obfuscated XSS payloads automatically. By transforming original XSS samples into diverse obfuscated variants, we create challenging training data for ML model evaluation. Our approach achieved a 99.5% accuracy rate with the obfuscated dataset. We also found that the obfuscated samples generated by the LLMs were 28.1% more complex than those created by other tools, significantly improving the model's ability to handle advanced XSS attacks and making it more effective for real-world application security.
- Abstract(参考訳): Open Web Application Security Project (OWASP)によると、クロスサイトスクリプティング(XSS)は重要なセキュリティ脆弱性である。
何十年もの研究にもかかわらず、XSSはセキュリティ上の脆弱性のトップ10に留まっている。
研究者はXSS攻撃からシステムを保護するための様々な手法を提案しており、機械学習(ML)は最も広く使われている手法の1つである。
MLモデルはデータセット上でトレーニングされ、潜在的なXSS脅威を特定することで、トレーニングデータのサイズと多様性に依存する。
XSSのバリエーションは難読化XSSであり、攻撃者はコードの構造を変えるために難読化技術を適用するため、セキュリティシステムが悪意のある意図を検出することは困難である。
本研究のランダム森林モデルでは,従来のXSSデータに基づいて99.8%の精度でトレーニングを行った。
しかしながら、難読化XSSサンプルに対するテストでは、精度が81.9%に低下し、XSS攻撃の検出効率を向上させるために、難読化データを用いたMLモデルのトレーニングの重要性が強調された。
重要な課題は、いくつかの公開ツールが利用可能であるにもかかわらず、非常に複雑な難読化コードを生成することである。
これらのツールは、特定のレベルの複雑さまでしか難読化できない。
提案システムでは,Large Language Model (LLM) を微調整し,複雑な難読化XSSペイロードを自動的に生成する。
元のXSSサンプルを多様な難読化変種に変換することにより、MLモデル評価のための挑戦的なトレーニングデータを生成する。
我々のアプローチは、難読化データセットで99.5%の精度を達成した。
LLMが生成した難読化サンプルは他のツールが生成したサンプルよりも28.1%複雑であり、高度なXSS攻撃を処理するモデルの能力を大幅に改善し、現実世界のアプリケーションセキュリティをより効果的にすることを発見した。
関連論文リスト
- Enhancing Leakage Attacks on Searchable Symmetric Encryption Using LLM-Based Synthetic Data Generation [0.0]
Searchable Symmetric Encryption (SSE)は、暗号化されたデータに対する効率的な検索機能を提供する。
SSEスキームは、アクセスパターン、検索周波数、ボリューム情報を利用する漏洩攻撃に対して脆弱である。
本稿では,大規模言語モデル(LLM),特にGPT-4の変種を利用して,エンロンメールの現実のデータセットに統計的・意味的に類似した合成文書を生成する手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T04:23:10Z) - GenXSS: an AI-Driven Framework for Automated Detection of XSS Attacks in WAFs [0.0]
クロスサイトスクリプティング(XSS)は、悪意のあるスクリプトを注入することによって、Webアプリケーションのクライアント側層をターゲットにする。
従来のWebアプリケーションファイアウォール(WAF)は、非常に難解で複雑な攻撃を検出するのに苦労しています。
本稿では,Large Language Models (LLMs) を利用したXSS軽減のための新しい生成AIフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-11T00:13:59Z) - CyberLLMInstruct: A New Dataset for Analysing Safety of Fine-Tuned LLMs Using Cyber Security Data [2.2530496464901106]
大規模言語モデルのサイバーセキュリティアプリケーションへの統合は、大きなチャンスをもたらす。
CyberLLMInstructは、サイバーセキュリティタスクにまたがる54,928の命令応答ペアのデータセットである。
微調整モデルは、CyberMetricベンチマークで最大92.50%の精度を達成することができる。
論文 参考訳(メタデータ) (2025-03-12T12:29:27Z) - XSS Adversarial Attacks Based on Deep Reinforcement Learning: A Replication and Extension Study [7.015365208285838]
クロスサイトスクリプティング(XSS)は、Webアプリケーションのセキュリティに重大な脅威をもたらす。
Deep LearningはXSS攻撃の検出に顕著な成功を収めた。
敵攻撃はXSS攻撃ベクターの異なる構成要素に対する突然変異ベースの戦略を用いる。
論文 参考訳(メタデータ) (2025-02-26T12:39:55Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - Dancer in the Dark: Synthesizing and Evaluating Polyglots for Blind Cross-Site Scripting [10.696934248458136]
クロスサイトスクリプティング(クロスサイトスクリプティング、クロスサイトスクリプティング、英: Cross-Site Scripting、XSS)は、Webアプリケーションにおける一般的なセキュリティ問題である。
ブラインドXSS(BXSS)の総合的研究について紹介する。
我々は,ポリグロットを合成する手法を開発し,すべての共通注入コンテキストで実行される小型XSSペイロードについて述べる。
論文 参考訳(メタデータ) (2025-02-12T15:02:30Z) - Evaluating and Improving the Robustness of Security Attack Detectors Generated by LLMs [6.936401700600395]
大規模言語モデル(LLM)は、セキュリティ要件を実装するアタック検出器などの関数を生成するために、ソフトウェア開発でますます使われている。
これは、LLMが既存の攻撃に関する知識を欠いていることと、生成されたコードが実際の使用シナリオで評価されていないことによる可能性が高い。
本稿では,LLMパイプラインにRAG(Retrieval Augmented Generation)とSelf-Rankingを統合した新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-27T10:48:37Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
アドリアルプロンプトは外部データソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を約0%に低下させる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - How to Craft Backdoors with Unlabeled Data Alone? [54.47006163160948]
自己教師型学習(SSL)は、経済的かつスケーラブルな方法でリッチな機能を学ぶことができる。
リリースされたデータセットが悪意ある毒を盛られた場合、テストサンプルにトリガーが注入された場合、バックドアのSSLモデルはひどい振る舞いをする可能性がある。
本稿では, 疑似ラベルを用いたクラスタリングに基づく選別と, 相互情報原理に基づくコントラスト選択の2つの方法を提案する。
論文 参考訳(メタデータ) (2024-04-10T02:54:18Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - Erasing Self-Supervised Learning Backdoor by Cluster Activation Masking [65.44477004525231]
研究者は最近、自己監視学習(SSL)がバックドア攻撃に脆弱であることを発見した。
本稿では,クラスタアクティベーションマスキングによるSSLバックドアの消去を提案し,新しいPoisonCAM法を提案する。
ImageNet-100の最先端手法の3%と比較して,バックドアトリガ検出の精度は96%であった。
論文 参考訳(メタデータ) (2023-12-13T08:01:15Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。