論文の概要: RoBERTa-Augmented Synthesis for Detecting Malicious API Requests
- arxiv url: http://arxiv.org/abs/2405.11258v3
- Date: Thu, 15 May 2025 12:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 14:06:35.241393
- Title: RoBERTa-Augmented Synthesis for Detecting Malicious API Requests
- Title(参考訳): RoBERTa-Augmented Synthesis for Detecting Malicious API Requests (特集:一般セッション)
- Authors: Udi Aharon, Revital Marbel, Ran Dubin, Amit Dvir, Chen Hajaj,
- Abstract要約: GANにインスパイアされた学習フレームワークを導入し、ターゲットとなるドメイン認識合成を通じて限られたAPIトラフィックデータセットを拡張する。
我々は,CSIC 2010 と ATRDF 2023 の2つのベンチマークデータセット上でフレームワークを評価し,従来のデータ拡張手法と比較した。
CSIC 2010ではF1スコアが4.94%増加し,ATRDF 2023では21.10%向上した。
- 参考スコア(独自算出の注目度): 9.035212370386846
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Web applications and APIs face constant threats from malicious actors seeking to exploit vulnerabilities for illicit gains. To defend against these threats, it is essential to have anomaly detection systems that can identify a variety of malicious behaviors. However, a significant challenge in this area is the limited availability of training data. Existing datasets often do not provide sufficient coverage of the diverse API structures, parameter formats, and usage patterns encountered in real-world scenarios. As a result, models trained on these datasets often struggle to generalize and may fail to detect less common or emerging attack vectors. To enhance detection accuracy and robustness, it is crucial to access larger and more representative datasets that capture the true variability of API traffic. To address this, we introduce a GAN-inspired learning framework that extends limited API traffic datasets through targeted, domain-aware synthesis. Drawing on techniques from Natural Language Processing (NLP), our approach leverages Transformer-based architectures, particularly RoBERTa, to enhance the contextual representation of API requests and generate realistic synthetic samples aligned with security-specific semantics. We evaluate our framework on two benchmark datasets, CSIC 2010 and ATRDF 2023, and compare it with a previous data augmentation technique to assess the importance of domain-specific synthesis. In addition, we apply our augmented data to various anomaly detection models to evaluate its impact on classification performance. Our method achieves up to a 4.94% increase in F1 score on CSIC 2010 and up to 21.10% on ATRDF 2023. The source codes of this work are available at https://github.com/ArielCyber/GAN-API.
- Abstract(参考訳): WebアプリケーションとAPIは、不正な利益のために脆弱性を悪用しようとする悪意のあるアクターから常に脅威に直面している。
これらの脅威に対して防御するためには、様々な悪意ある行動を識別できる異常検出システムを持つことが不可欠である。
しかし、この領域で重要な課題は、トレーニングデータの可用性の制限である。
既存のデータセットは、現実世界のシナリオで発生する多様なAPI構造、パラメータフォーマット、利用パターンについて十分なカバレッジを提供していないことが多い。
その結果、これらのデータセットでトレーニングされたモデルは、一般化に苦しむことが多く、より一般的あるいは出現する攻撃ベクトルの検出に失敗する可能性がある。
検出精度とロバスト性を高めるために、APIトラフィックの真の変化をキャプチャする、より大規模な、より代表的なデータセットにアクセスすることが重要です。
この問題に対処するために、ターゲットとなるドメイン認識合成を通じて限られたAPIトラフィックデータセットを拡張する、GANにインスパイアされた学習フレームワークを導入する。
提案手法は自然言語処理(NLP)の技術に基づいて,Transformerベースのアーキテクチャ,特にRoBERTaを活用して,API要求のコンテキスト表現を強化し,セキュリティ固有のセマンティクスと整合したリアルな合成サンプルを生成する。
我々は,CSIC 2010 と ATRDF 2023 の2つのベンチマークデータセット上でフレームワークを評価し,従来のデータ拡張手法と比較し,ドメイン固有合成の重要性を評価する。
さらに, 各種異常検出モデルに適用し, 分類性能への影響を評価する。
CSIC 2010ではF1スコアが4.94%増加し,ATRDF 2023では21.10%上昇した。
この作業のソースコードはhttps://github.com/ArielCyber/GAN-APIで公開されている。
関連論文リスト
- SecVulEval: Benchmarking LLMs for Real-World C/C++ Vulnerability Detection [8.440793630384546]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。
高品質なデータセットがないため、脆弱性検出の有効性を評価するのは難しい。
このベンチマークには、1999年から2024年までのC/C++プロジェクトで5,867のCVEをカバーする25,440の関数サンプルが含まれている。
論文 参考訳(メタデータ) (2025-05-26T11:06:03Z) - No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - Enhancing web traffic attacks identification through ensemble methods and feature selection [1.3652530361013693]
本研究は,機械学習技術を活用して,Webトラフィック攻撃の識別を強化することを目的とする。
CSIC2010 v2データセットを用いて,HTTPトレースから関連する特徴を抽出する手法が提案された。
ランダムフォレスト (Random Forest) やエクストリームグラディエント・ブースティング (Extreme Gradient Boosting) のようなアンサンブル法が採用され、ベースライン分類器と比較された。
論文 参考訳(メタデータ) (2024-12-21T22:13:30Z) - Adaptive Meta-Learning for Robust Deepfake Detection: A Multi-Agent Framework to Data Drift and Model Generalization [6.589206192038365]
本稿では,タスク固有適応型サンプル合成と整合性正規化を用いた対角的メタ学習アルゴリズムを提案する。
これにより、モデルの堅牢性と一般化の両方が促進される。
実験結果は、モデルが様々なデータセットにわたって一貫した性能を示し、比較したモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-11-12T19:55:07Z) - A Novel Approach to Malicious Code Detection Using CNN-BiLSTM and Feature Fusion [2.3039261241391586]
本研究では,マルウェアのバイナリファイルをグレースケールのイメージに変換するためにminhashアルゴリズムを用いる。
この研究は、IDA Proを用いてオペコードシーケンスをデコンパイルし、抽出し、特徴ベクトル化にN-gramとtf-idfアルゴリズムを適用した。
CNN-BiLSTM融合モデルは、画像の特徴とオプコードシーケンスを同時に処理し、分類性能を向上させるように設計されている。
論文 参考訳(メタデータ) (2024-10-12T07:10:44Z) - Dynamic Analysis and Adaptive Discriminator for Fake News Detection [59.41431561403343]
偽ニュース検出のための動的解析・適応識別器(DAAD)手法を提案する。
知識に基づく手法では,モンテカルロ木探索アルゴリズムを導入し,大規模言語モデルの自己表現能力を活用する。
意味に基づく手法では、偽ニュース生成のメカニズムを明らかにするために、典型的偽造パターンを4つ定義する。
論文 参考訳(メタデータ) (2024-08-20T14:13:54Z) - A Classification-by-Retrieval Framework for Few-Shot Anomaly Detection to Detect API Injection Attacks [9.693391036125908]
本稿では,2つの主要部品からなる非教師なし数発の異常検出フレームワークを提案する。
まず、FastTextの埋め込みに基づいたAPI専用の汎用言語モデルをトレーニングする。
次に,近似Nearest Neighborサーチを分類・検索手法として用いた。
論文 参考訳(メタデータ) (2024-05-18T10:15:31Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - A Method for Network Intrusion Detection Using Flow Sequence and BERT Framework [0.9208007322096533]
本研究の目的は,ネットワーク侵入検知システムの領域適応性を向上させるために,フローのシーケンスを用いることの可能性を検討することである。
提案手法は自然言語処理技術とトランスフォーマーフレームワークからの双方向表現を用いる。
初期の実証実験の結果,従来のアプローチに比べてドメイン適応能力が改善された。
論文 参考訳(メタデータ) (2023-10-26T03:56:40Z) - CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。
既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。
顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - Enhancing Infrared Small Target Detection Robustness with Bi-Level
Adversarial Framework [61.34862133870934]
本稿では,異なる汚職の存在下での検出の堅牢性を促進するために,二段階の対向的枠組みを提案する。
我々の手法は広範囲の汚職で21.96%のIOUを著しく改善し、特に一般ベンチマークで4.97%のIOUを推進している。
論文 参考訳(メタデータ) (2023-09-03T06:35:07Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Reducing False Alarms in Video Surveillance by Deep Feature Statistical
Modeling [16.311150636417256]
我々は, 深部特徴の高次元統計的モデリングに基づいて, 弱教師付きa-コントラリオ検証法を開発した。
実験結果から,提案したa-contrarioバリデーションにより,画素レベルとオブジェクトレベルの偽アラームの回数を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2023-07-09T12:37:17Z) - Wild Face Anti-Spoofing Challenge 2023: Benchmark and Results [73.98594459933008]
顔認証システム(FAS)は、顔認識システムの完全性を保護するための重要なメカニズムである。
この制限は、公開可能なFASデータセットの不足と多様性の欠如に起因する可能性がある。
制約のない環境で収集された大規模で多様なFASデータセットであるWild Face Anti-Spoofingデータセットを紹介した。
論文 参考訳(メタデータ) (2023-04-12T10:29:42Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Towards an Awareness of Time Series Anomaly Detection Models'
Adversarial Vulnerability [21.98595908296989]
本研究では,センサデータに小さな対向摂動のみを加えることで,最先端の異常検出手法の性能を著しく劣化させることを実証した。
いくつかのパブリックデータセットとプライベートデータセットに対して、予測エラー、異常、分類スコアなど、さまざまなスコアを使用する。
敵攻撃に対する異常検出システムの脆弱性を初めて実証した。
論文 参考訳(メタデータ) (2022-08-24T01:55:50Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - Bayesian Optimization with Machine Learning Algorithms Towards Anomaly
Detection [66.05992706105224]
本稿では,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。
ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。
実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-05T19:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。