論文の概要: STAN: Synthetic Network Traffic Generation with Generative Neural Models
- arxiv url: http://arxiv.org/abs/2009.12740v2
- Date: Tue, 3 Aug 2021 02:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 03:52:39.773185
- Title: STAN: Synthetic Network Traffic Generation with Generative Neural Models
- Title(参考訳): STAN:生成ニューラルモデルを用いた合成ネットワークトラフィック生成
- Authors: Shengzhe Xu, Manish Marwah, Martin Arlitt, Naren Ramakrishnan
- Abstract要約: 本稿では,現実的な合成ネットワークトラフィックデータセットを生成するためのSTAN(Synthetic Network Traffic Generation with Autoregressive Neural Model)を提案する。
私たちの新しいニューラルアーキテクチャは、常に属性間の時間的依存関係と依存の両方をキャプチャします。
我々は、シミュレーションデータセットと実ネットワークトラフィックデータセットの両方で、STANの性能を、データの品質の観点から評価する。
- 参考スコア(独自算出の注目度): 10.54843182184416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models have achieved great success in recent years but progress
in some domains like cybersecurity is stymied due to a paucity of realistic
datasets. Organizations are reluctant to share such data, even internally, due
to privacy reasons. An alternative is to use synthetically generated data but
existing methods are limited in their ability to capture complex dependency
structures, between attributes and across time. This paper presents STAN
(Synthetic network Traffic generation with Autoregressive Neural models), a
tool to generate realistic synthetic network traffic datasets for subsequent
downstream applications. Our novel neural architecture captures both temporal
dependencies and dependence between attributes at any given time. It integrates
convolutional neural layers with mixture density neural layers and softmax
layers, and models both continuous and discrete variables. We evaluate the
performance of STAN in terms of the quality of data generated, by training it
on both a simulated dataset and a real network traffic data set. Finally, to
answer the question - can real network traffic data be substituted with
synthetic data to train models of comparable accuracy? We train two anomaly
detection models based on self-supervision. The results show only a small
decline in the accuracy of models trained solely on synthetic data. While
current results are encouraging in terms of quality of data generated and
absence of any obvious data leakage from training data, in the future we plan
to further validate this fact by conducting privacy attacks on the generated
data. Other future work includes validating capture of long term dependencies
and making model training
- Abstract(参考訳): ディープラーニングモデルは近年、大きな成功を収めていますが、サイバーセキュリティのようないくつかの分野における進歩は、現実的なデータセットのパデューシティによって抑制されています。
組織はプライバシー上の理由から、そのようなデータを社内でも共有することに消極的だ。
もうひとつは、合成データを使用することだが、既存のメソッドは、属性間の複雑な依存関係構造をキャプチャする能力に制限がある。
本稿では、下流アプリケーションのためのリアルな合成ネットワークトラフィックデータセットを生成するSTAN(Synthetic Network Traffic Generation with Autoregressive Neural Model)を提案する。
当社の新しいニューラルアーキテクチャは,属性間の時間依存性と依存性を,任意のタイミングでキャプチャする。
畳み込みニューラル層と混合密度ニューラル層とソフトマックス層を統合し、連続変数と離散変数の両方をモデル化する。
シミュレーションデータセットと実際のネットワークトラヒックデータセットの両方でトレーニングすることにより,生成されたデータの品質の観点からstanの性能を評価する。
最後に、質問に答える - 実際のネットワークトラフィックデータを合成データに置き換えて、同等の精度のモデルをトレーニングできるか?
自己超越に基づく2つの異常検出モデルを訓練する。
その結果,合成データのみに基づいてトレーニングしたモデルの精度はわずかに低下した。
現在の結果は、生成されたデータの品質とトレーニングデータからの明らかなデータ漏洩の欠如という点で奨励されているが、将来的には、生成されたデータに対してプライバシ攻撃を行うことで、この事実をさらに検証する予定である。
その他の今後の作業には、長期依存の獲得とモデルトレーニングの実施が含まれる。
関連論文リスト
- Self-Improving Diffusion Models with Synthetic Data [12.597035060380001]
シンセティックデータを用いた自己IM拡散モデル(SIMS)は、拡散モデルのための新しい訓練概念である。
SIMSは自己合成データを使用して生成プロセス中に負のガイダンスを提供する。
MADを使わずに、自己生成合成データに対して反復的に訓練できる、最初の予防的生成AIアルゴリズムである。
論文 参考訳(メタデータ) (2024-08-29T08:12:18Z) - Mind the Gap Between Synthetic and Real: Utilizing Transfer Learning to Probe the Boundaries of Stable Diffusion Generated Data [2.6016285265085526]
学生モデルは、実際のデータで訓練されたモデルと比較して、精度が著しく低下している。
実データまたは合成データを用いてこれらのレイヤをトレーニングすることにより、ドロップが主にモデルの最終的なレイヤに由来することを明らかにする。
この結果から,実際のトレーニングデータの量とモデルの精度とのトレードオフの改善が示唆された。
論文 参考訳(メタデータ) (2024-05-06T07:51:13Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Online Evolutionary Neural Architecture Search for Multivariate
Non-Stationary Time Series Forecasting [72.89994745876086]
本研究は、オンラインニューロ進化に基づくニューラルアーキテクチャサーチ(ONE-NAS)アルゴリズムを提案する。
ONE-NASは、オンライン予測タスクのためにリカレントニューラルネットワーク(RNN)を自動設計し、動的にトレーニングする新しいニューラルネットワーク探索手法である。
その結果、ONE-NASは従来の統計時系列予測法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-20T22:25:47Z) - MLReal: Bridging the gap between training on synthetic data and real
data applications in machine learning [1.9852463786440129]
本稿では,実際のデータ特徴を持つ合成データの教師付きトレーニングを強化するための新しいアプローチについて述べる。
トレーニング段階では、入力データは合成ドメインから、自動相関データは実ドメインからである。
推論/アプリケーション段階では、入力データは実サブセットドメインからであり、自己相関区間の平均は合成データサブセットドメインからである。
論文 参考訳(メタデータ) (2021-09-11T14:43:34Z) - Synthesizing Irreproducibility in Deep Networks [2.28438857884398]
現代のディープネットワークは非生産性に苦しむ(非決定性または不特定化とも呼ばれる)
単一の非線形性や非常に単純なデータやモデルであっても、不再現性が生じることを示す。
モデルの複雑さと非線形性の選択は、深いモデルを再現不能にする上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-02-21T21:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。