論文の概要: STAN: Synthetic Network Traffic Generation with Generative Neural Models
- arxiv url: http://arxiv.org/abs/2009.12740v2
- Date: Tue, 3 Aug 2021 02:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 03:52:39.773185
- Title: STAN: Synthetic Network Traffic Generation with Generative Neural Models
- Title(参考訳): STAN:生成ニューラルモデルを用いた合成ネットワークトラフィック生成
- Authors: Shengzhe Xu, Manish Marwah, Martin Arlitt, Naren Ramakrishnan
- Abstract要約: 本稿では,現実的な合成ネットワークトラフィックデータセットを生成するためのSTAN(Synthetic Network Traffic Generation with Autoregressive Neural Model)を提案する。
私たちの新しいニューラルアーキテクチャは、常に属性間の時間的依存関係と依存の両方をキャプチャします。
我々は、シミュレーションデータセットと実ネットワークトラフィックデータセットの両方で、STANの性能を、データの品質の観点から評価する。
- 参考スコア(独自算出の注目度): 10.54843182184416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models have achieved great success in recent years but progress
in some domains like cybersecurity is stymied due to a paucity of realistic
datasets. Organizations are reluctant to share such data, even internally, due
to privacy reasons. An alternative is to use synthetically generated data but
existing methods are limited in their ability to capture complex dependency
structures, between attributes and across time. This paper presents STAN
(Synthetic network Traffic generation with Autoregressive Neural models), a
tool to generate realistic synthetic network traffic datasets for subsequent
downstream applications. Our novel neural architecture captures both temporal
dependencies and dependence between attributes at any given time. It integrates
convolutional neural layers with mixture density neural layers and softmax
layers, and models both continuous and discrete variables. We evaluate the
performance of STAN in terms of the quality of data generated, by training it
on both a simulated dataset and a real network traffic data set. Finally, to
answer the question - can real network traffic data be substituted with
synthetic data to train models of comparable accuracy? We train two anomaly
detection models based on self-supervision. The results show only a small
decline in the accuracy of models trained solely on synthetic data. While
current results are encouraging in terms of quality of data generated and
absence of any obvious data leakage from training data, in the future we plan
to further validate this fact by conducting privacy attacks on the generated
data. Other future work includes validating capture of long term dependencies
and making model training
- Abstract(参考訳): ディープラーニングモデルは近年、大きな成功を収めていますが、サイバーセキュリティのようないくつかの分野における進歩は、現実的なデータセットのパデューシティによって抑制されています。
組織はプライバシー上の理由から、そのようなデータを社内でも共有することに消極的だ。
もうひとつは、合成データを使用することだが、既存のメソッドは、属性間の複雑な依存関係構造をキャプチャする能力に制限がある。
本稿では、下流アプリケーションのためのリアルな合成ネットワークトラフィックデータセットを生成するSTAN(Synthetic Network Traffic Generation with Autoregressive Neural Model)を提案する。
当社の新しいニューラルアーキテクチャは,属性間の時間依存性と依存性を,任意のタイミングでキャプチャする。
畳み込みニューラル層と混合密度ニューラル層とソフトマックス層を統合し、連続変数と離散変数の両方をモデル化する。
シミュレーションデータセットと実際のネットワークトラヒックデータセットの両方でトレーニングすることにより,生成されたデータの品質の観点からstanの性能を評価する。
最後に、質問に答える - 実際のネットワークトラフィックデータを合成データに置き換えて、同等の精度のモデルをトレーニングできるか?
自己超越に基づく2つの異常検出モデルを訓練する。
その結果,合成データのみに基づいてトレーニングしたモデルの精度はわずかに低下した。
現在の結果は、生成されたデータの品質とトレーニングデータからの明らかなデータ漏洩の欠如という点で奨励されているが、将来的には、生成されたデータに対してプライバシ攻撃を行うことで、この事実をさらに検証する予定である。
その他の今後の作業には、長期依存の獲得とモデルトレーニングの実施が含まれる。
関連論文リスト
- Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data
Injection and Model Querying [12.272239607545089]
局所分布シフト合成(textscLDSS)は,分類モデルの訓練に使用される漏洩データを検出する新しい手法である。
textscLDSSは、Naive Bayes、Decision Tree、Random Forestといった様々な分類モデルと互換性がある。
5つの実世界のデータセットにまたがる7種類の分類モデルについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - On the Stability of Iterative Retraining of Generative Models on their
own Data [56.153542044045224]
生成モデルの訓練がデータセット(実データと合成データの混合データ)の安定性に及ぼす影響について検討した。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は,CIFAR10およびFFHQ上の正規化フローと最先端拡散モデルの反復的訓練により,合成画像と自然画像の両方に関する理論を実証的に検証した。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Online Evolutionary Neural Architecture Search for Multivariate
Non-Stationary Time Series Forecasting [72.89994745876086]
本研究は、オンラインニューロ進化に基づくニューラルアーキテクチャサーチ(ONE-NAS)アルゴリズムを提案する。
ONE-NASは、オンライン予測タスクのためにリカレントニューラルネットワーク(RNN)を自動設計し、動的にトレーニングする新しいニューラルネットワーク探索手法である。
その結果、ONE-NASは従来の統計時系列予測法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-20T22:25:47Z) - A data filling methodology for time series based on CNN and (Bi)LSTM
neural networks [0.0]
イタリア・ボルツァーノの監視アパートから得られた時系列データギャップを埋めるための2つのDeep Learningモデルを開発した。
提案手法は, 変動するデータの性質を把握し, 対象時系列の再構成に優れた精度を示す。
論文 参考訳(メタデータ) (2022-04-21T09:40:30Z) - An advanced spatio-temporal convolutional recurrent neural network for
storm surge predictions [73.4962254843935]
本研究では, 人工ニューラルネットワークモデルを用いて, 嵐の軌跡/規模/強度履歴に基づいて, 強風をエミュレートする能力について検討する。
本研究では, 人工嵐シミュレーションのデータベースを用いて, 強風を予測できるニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2022-04-18T23:42:18Z) - MLReal: Bridging the gap between training on synthetic data and real
data applications in machine learning [1.9852463786440129]
本稿では,実際のデータ特徴を持つ合成データの教師付きトレーニングを強化するための新しいアプローチについて述べる。
トレーニング段階では、入力データは合成ドメインから、自動相関データは実ドメインからである。
推論/アプリケーション段階では、入力データは実サブセットドメインからであり、自己相関区間の平均は合成データサブセットドメインからである。
論文 参考訳(メタデータ) (2021-09-11T14:43:34Z) - Synthesizing Irreproducibility in Deep Networks [2.28438857884398]
現代のディープネットワークは非生産性に苦しむ(非決定性または不特定化とも呼ばれる)
単一の非線形性や非常に単純なデータやモデルであっても、不再現性が生じることを示す。
モデルの複雑さと非線形性の選択は、深いモデルを再現不能にする上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-02-21T21:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。