論文の概要: Synthetic flow-based cryptomining attack generation through Generative
Adversarial Networks
- arxiv url: http://arxiv.org/abs/2107.14776v1
- Date: Fri, 30 Jul 2021 17:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 12:53:13.213117
- Title: Synthetic flow-based cryptomining attack generation through Generative
Adversarial Networks
- Title(参考訳): 生成逆数ネットワークによる合成フローベース暗号攻撃生成
- Authors: Alberto Mozo, \'Angel Gonz\'alez-Prieto, Antonio Pastor, Sandra
G\'omez-Canaval, Edgar Talavera
- Abstract要約: マシンラーニングコンポーネントのパフォーマンス向上には,フローベースのデータセットが不可欠だ。
データプライバシは,このようなネットワークデータを処理する上で,強い要件としてますます現れています。
本稿では,GANが生成する合成データの質を測定するための新しい決定論的手法を提案する。
- 参考スコア(独自算出の注目度): 1.2575897140677708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the growing rise of cyber attacks in the Internet, flow-based data
sets are crucial to increase the performance of the Machine Learning (ML)
components that run in network-based intrusion detection systems (IDS). To
overcome the existing network traffic data shortage in attack analysis, recent
works propose Generative Adversarial Networks (GANs) for synthetic flow-based
network traffic generation. Data privacy is appearing more and more as a strong
requirement when processing such network data, which suggests to find solutions
where synthetic data can fully replace real data. Because of the
ill-convergence of the GAN training, none of the existing solutions can
generate high-quality fully synthetic data that can totally substitute real
data in the training of IDS ML components. Therefore, they mix real with
synthetic data, which acts only as data augmentation components, leading to
privacy breaches as real data is used. In sharp contrast, in this work we
propose a novel deterministic way to measure the quality of the synthetic data
produced by a GAN both with respect to the real data and to its performance
when used for ML tasks. As a byproduct, we present a heuristic that uses these
metrics for selecting the best performing generator during GAN training,
leading to a stopping criterion. An additional heuristic is proposed to select
the best performing GANs when different types of synthetic data are to be used
in the same ML task. We demonstrate the adequacy of our proposal by generating
synthetic cryptomining attack traffic and normal traffic flow-based data using
an enhanced version of a Wasserstein GAN. We show that the generated synthetic
network traffic can completely replace real data when training a ML-based
cryptomining detector, obtaining similar performance and avoiding privacy
violations, since real data is not used in the training of the ML-based
detector.
- Abstract(参考訳): インターネットにおけるサイバー攻撃の増加により、フローベースのデータセットは、ネットワークベースの侵入検知システム(IDS)で動作する機械学習(ML)コンポーネントのパフォーマンス向上に不可欠である。
攻撃解析における既存のネットワークトラヒックデータ不足を克服するために,近年の研究では,合成フロー型ネットワークトラヒック生成のための生成型逆ネットワーク (gans) を提案する。
データプライバシは、そのようなネットワークデータを処理する際に、ますます強力な要件として現れており、これは、合成データが実際のデータを完全に置き換えることのできるソリューションを見つけることを示唆している。
GANトレーニングの不収束のため、既存のソリューションでは、IDS MLコンポーネントのトレーニングにおいて、実際のデータを完全に置換できる高品質の完全合成データを生成することはできない。
そのため、データ拡張コンポーネントとしてのみ動作する合成データとリアルを混在させ、実際のデータを使用するとプライバシー侵害が発生する。
そこで本研究では,ganが生成する合成データの品質を,実データとmlタスクに使用する際の性能の両方について,新しい決定論的手法を提案する。
副産物として、ganトレーニング中に最適な実行ジェネレータを選択するためにこれらのメトリクスを使用するヒューリスティックを示し、停止基準に導く。
同じMLタスクで異なる種類の合成データを使用する場合に、最も優れたGANを選択するために、さらなるヒューリスティックを提案する。
本稿では,Wasserstein GANの拡張版を用いて,合成暗号攻撃トラフィックと通常のトラフィックフローに基づくデータを生成することで,提案手法の有効性を示す。
生成した合成ネットワークトラフィックは、MLベースの暗号検出器のトレーニングにおいて、実データが使用されないため、MLベースの暗号検出器のトレーニングにおいて、同様の性能を取得し、プライバシー侵害を回避することができることを示す。
関連論文リスト
- Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification [7.357494019212501]
本研究では,合成データと実世界の分布を協調する効率的な重み付け手法を提案する。
複数のテキスト分類タスクにおいて,提案手法の有効性を実証的に評価した。
論文 参考訳(メタデータ) (2024-10-28T20:53:49Z) - Automatic AI Model Selection for Wireless Systems: Online Learning via Digital Twinning [50.332027356848094]
AIベースのアプリケーションは、スケジューリングや電力制御などの機能を実行するために、インテリジェントコントローラにデプロイされる。
コンテキストとAIモデルのパラメータのマッピングは、ゼロショット方式で理想的に行われる。
本稿では,AMSマッピングのオンライン最適化のための一般的な手法を紹介する。
論文 参考訳(メタデータ) (2024-06-22T11:17:50Z) - FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。
本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。
本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文 参考訳(メタデータ) (2024-03-25T16:49:38Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Distributed Traffic Synthesis and Classification in Edge Networks: A
Federated Self-supervised Learning Approach [83.2160310392168]
本稿では,多数の異種データセット上での自動トラフィック解析と合成を支援するFS-GANを提案する。
FS-GANは複数の分散ジェネレーティブ・アドバイサル・ネットワーク(GAN)から構成される
FS-GANは未知のサービスのデータを分類し、未知のタイプのトラフィック分布をキャプチャする合成サンプルを作成する。
論文 参考訳(メタデータ) (2023-02-01T03:23:11Z) - HFedMS: Heterogeneous Federated Learning with Memorable Data Semantics
in Industrial Metaverse [49.1501082763252]
本稿では,新しい産業メタバースに実用FLを取り入れたHFEDMSを提案する。
動的グルーピングとトレーニングモード変換によってデータの均一性を低下させる。
そして、圧縮された履歴データセマンティクスを融合することで、忘れられた知識を補う。
ストリームされた非I.d.FEMNISTデータセットに対して,368個のシミュレーションデバイスを用いて実験を行った。
論文 参考訳(メタデータ) (2022-11-07T04:33:24Z) - A Synthetic Dataset for 5G UAV Attacks Based on Observable Network
Parameters [3.468596481227013]
本稿では,5G以降のネットワークにおける無人航空機(UAV)攻撃のための最初の合成データセットを提案する。
このデータの主な目的は、UAV通信セキュリティのためのディープネットワーク開発を可能にすることである。
提案したデータセットは、都市環境において、静的または移動中のUAV攻撃者が認証されたUAVをターゲットにする際のネットワーク機能に関する洞察を提供する。
論文 参考訳(メタデータ) (2022-11-05T15:12:51Z) - Variational Autoencoder Generative Adversarial Network for Synthetic
Data Generation in Smart Home [15.995891934245334]
本稿では,変動型自動エンコーダ生成適応ネットワーク(VAE-GAN)をスマートグリッドデータ生成モデルとして提案する。
VAE-GANは、様々な種類のデータ分布を学習し、同じ分布から可塑性サンプルを生成することができる。
実験により,提案した合成データ生成モデルは,バニラGANネットワークより優れていることが示された。
論文 参考訳(メタデータ) (2022-01-19T02:30:25Z) - Transformer Networks for Data Augmentation of Human Physical Activity
Recognition [61.303828551910634]
Recurrent Generative Adrial Networks (RGAN)のような最先端技術モデルは、リアルな合成データを生成するために使用される。
本稿では,データにグローバルな注意を払っているトランスフォーマーベースの生成敵ネットワークを,PAMAP2とリアルワールドヒューマンアクティビティ認識データセットでRGANと比較する。
論文 参考訳(メタデータ) (2021-09-02T16:47:29Z) - Deep convolutional generative adversarial networks for traffic data
imputation encoding time series as images [7.053891669775769]
我々は,GAN(Generative Adversarial Network)に基づく交通センサデータ計算フレームワーク(TGAN)を開発した。
本研究では,GASF(Gramian Angular Summation Field)と呼ばれる新しい時間依存符号化手法を開発した。
本研究は,提案モデルにより,平均絶対誤差 (MAE) とルート平均正方形誤差 (RMSE) をベンチマークデータセットの最先端モデルと比較することにより,トラフィックデータ計算精度を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-05-05T19:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。