論文の概要: RoBERTa-Augmented Synthesis for Detecting Malicious API Requests
- arxiv url: http://arxiv.org/abs/2405.11258v2
- Date: Thu, 08 May 2025 10:28:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.4996
- Title: RoBERTa-Augmented Synthesis for Detecting Malicious API Requests
- Title(参考訳): RoBERTa-Augmented Synthesis for Detecting Malicious API Requests (特集:一般セッション)
- Authors: Udi Aharon, Revital Marbel, Ran Dubin, Amit Dvir, Chen Hajaj,
- Abstract要約: GANにインスパイアされた学習フレームワークを導入し、ターゲットとなるドメイン認識合成を通じて限られたAPIトラフィックデータセットを拡張する。
我々は,CSIC 2010 と ATRDF 2023 の2つのベンチマークデータセット上でフレームワークを評価し,従来のデータ拡張手法と比較した。
CSIC 2010ではF1スコアが4.94%増加し,ATRDF 2023では21.10%向上した。
- 参考スコア(独自算出の注目度): 9.035212370386846
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Web applications and APIs face constant threats from malicious actors seeking to exploit vulnerabilities for illicit gains. To defend against these threats, it is essential to have anomaly detection systems that can identify a variety of malicious behaviors. However, a significant challenge in this area is the limited availability of training data. Existing datasets often do not provide sufficient coverage of the diverse API structures, parameter formats, and usage patterns encountered in real-world scenarios. As a result, models trained on these datasets often struggle to generalize and may fail to detect less common or emerging attack vectors. To enhance detection accuracy and robustness, it is crucial to access larger and more representative datasets that capture the true variability of API traffic. To address this, we introduce a GAN-inspired learning framework that extends limited API traffic datasets through targeted, domain-aware synthesis. Drawing on techniques from Natural Language Processing (NLP), our approach leverages Transformer-based architectures, particularly RoBERTa, to enhance the contextual representation of API requests and generate realistic synthetic samples aligned with security-specific semantics. We evaluate our framework on two benchmark datasets, CSIC 2010 and ATRDF 2023, and compare it with a previous data augmentation technique to assess the importance of domain-specific synthesis. In addition, we apply our augmented data to various anomaly detection models to evaluate its impact on classification performance. Our method achieves up to a 4.94% increase in F1 score on CSIC 2010 and up to 21.10% on ATRDF 2023. The source codes of this work are available at https://github.com/ArielCyber/GAN-API.
- Abstract(参考訳): WebアプリケーションとAPIは、不正な利益のために脆弱性を悪用しようとする悪意のあるアクターから常に脅威に直面している。
これらの脅威に対して防御するためには、様々な悪意ある行動を識別できる異常検出システムを持つことが不可欠である。
しかし、この領域で重要な課題は、トレーニングデータの可用性の制限である。
既存のデータセットは、現実世界のシナリオで発生する多様なAPI構造、パラメータフォーマット、利用パターンについて十分なカバレッジを提供していないことが多い。
その結果、これらのデータセットでトレーニングされたモデルは、一般化に苦しむことが多く、より一般的あるいは出現する攻撃ベクトルの検出に失敗する可能性がある。
検出精度とロバスト性を高めるために、APIトラフィックの真の変化をキャプチャする、より大規模な、より代表的なデータセットにアクセスすることが重要です。
この問題に対処するために、ターゲットとなるドメイン認識合成を通じて限られたAPIトラフィックデータセットを拡張する、GANにインスパイアされた学習フレームワークを導入する。
提案手法は自然言語処理(NLP)の技術に基づいて,Transformerベースのアーキテクチャ,特にRoBERTaを活用して,API要求のコンテキスト表現を強化し,セキュリティ固有のセマンティクスと整合したリアルな合成サンプルを生成する。
我々は,CSIC 2010 と ATRDF 2023 の2つのベンチマークデータセット上でフレームワークを評価し,従来のデータ拡張手法と比較し,ドメイン固有合成の重要性を評価する。
さらに, 各種異常検出モデルに適用し, 分類性能への影響を評価する。
CSIC 2010ではF1スコアが4.94%増加し,ATRDF 2023では21.10%上昇した。
この作業のソースコードはhttps://github.com/ArielCyber/GAN-APIで公開されている。
関連論文リスト
- Enhancing web traffic attacks identification through ensemble methods and feature selection [1.3652530361013693]
本研究は,機械学習技術を活用して,Webトラフィック攻撃の識別を強化することを目的とする。
CSIC2010 v2データセットを用いて,HTTPトレースから関連する特徴を抽出する手法が提案された。
ランダムフォレスト (Random Forest) やエクストリームグラディエント・ブースティング (Extreme Gradient Boosting) のようなアンサンブル法が採用され、ベースライン分類器と比較された。
論文 参考訳(メタデータ) (2024-12-21T22:13:30Z) - A Novel Approach to Malicious Code Detection Using CNN-BiLSTM and Feature Fusion [2.3039261241391586]
本研究では,マルウェアのバイナリファイルをグレースケールのイメージに変換するためにminhashアルゴリズムを用いる。
この研究は、IDA Proを用いてオペコードシーケンスをデコンパイルし、抽出し、特徴ベクトル化にN-gramとtf-idfアルゴリズムを適用した。
CNN-BiLSTM融合モデルは、画像の特徴とオプコードシーケンスを同時に処理し、分類性能を向上させるように設計されている。
論文 参考訳(メタデータ) (2024-10-12T07:10:44Z) - Dynamic Analysis and Adaptive Discriminator for Fake News Detection [59.41431561403343]
偽ニュース検出のための動的解析・適応識別器(DAAD)手法を提案する。
知識に基づく手法では,モンテカルロ木探索アルゴリズムを導入し,大規模言語モデルの自己表現能力を活用する。
意味に基づく手法では、偽ニュース生成のメカニズムを明らかにするために、典型的偽造パターンを4つ定義する。
論文 参考訳(メタデータ) (2024-08-20T14:13:54Z) - A Classification-by-Retrieval Framework for Few-Shot Anomaly Detection to Detect API Injection Attacks [9.693391036125908]
本稿では,2つの主要部品からなる非教師なし数発の異常検出フレームワークを提案する。
まず、FastTextの埋め込みに基づいたAPI専用の汎用言語モデルをトレーニングする。
次に,近似Nearest Neighborサーチを分類・検索手法として用いた。
論文 参考訳(メタデータ) (2024-05-18T10:15:31Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - A Method for Network Intrusion Detection Using Flow Sequence and BERT Framework [0.9208007322096533]
本研究の目的は,ネットワーク侵入検知システムの領域適応性を向上させるために,フローのシーケンスを用いることの可能性を検討することである。
提案手法は自然言語処理技術とトランスフォーマーフレームワークからの双方向表現を用いる。
初期の実証実験の結果,従来のアプローチに比べてドメイン適応能力が改善された。
論文 参考訳(メタデータ) (2023-10-26T03:56:40Z) - CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。
既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。
顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - Enhancing Infrared Small Target Detection Robustness with Bi-Level
Adversarial Framework [61.34862133870934]
本稿では,異なる汚職の存在下での検出の堅牢性を促進するために,二段階の対向的枠組みを提案する。
我々の手法は広範囲の汚職で21.96%のIOUを著しく改善し、特に一般ベンチマークで4.97%のIOUを推進している。
論文 参考訳(メタデータ) (2023-09-03T06:35:07Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Reducing False Alarms in Video Surveillance by Deep Feature Statistical
Modeling [16.311150636417256]
我々は, 深部特徴の高次元統計的モデリングに基づいて, 弱教師付きa-コントラリオ検証法を開発した。
実験結果から,提案したa-contrarioバリデーションにより,画素レベルとオブジェクトレベルの偽アラームの回数を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2023-07-09T12:37:17Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Towards an Awareness of Time Series Anomaly Detection Models'
Adversarial Vulnerability [21.98595908296989]
本研究では,センサデータに小さな対向摂動のみを加えることで,最先端の異常検出手法の性能を著しく劣化させることを実証した。
いくつかのパブリックデータセットとプライベートデータセットに対して、予測エラー、異常、分類スコアなど、さまざまなスコアを使用する。
敵攻撃に対する異常検出システムの脆弱性を初めて実証した。
論文 参考訳(メタデータ) (2022-08-24T01:55:50Z) - Bayesian Optimization with Machine Learning Algorithms Towards Anomaly
Detection [66.05992706105224]
本稿では,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。
ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。
実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-05T19:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。