論文の概要: STAN: Synthetic Network Traffic Generation with Generative Neural Models
- arxiv url: http://arxiv.org/abs/2009.12740v2
- Date: Tue, 3 Aug 2021 02:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 03:52:39.773185
- Title: STAN: Synthetic Network Traffic Generation with Generative Neural Models
- Title(参考訳): STAN:生成ニューラルモデルを用いた合成ネットワークトラフィック生成
- Authors: Shengzhe Xu, Manish Marwah, Martin Arlitt, Naren Ramakrishnan
- Abstract要約: 本稿では,現実的な合成ネットワークトラフィックデータセットを生成するためのSTAN(Synthetic Network Traffic Generation with Autoregressive Neural Model)を提案する。
私たちの新しいニューラルアーキテクチャは、常に属性間の時間的依存関係と依存の両方をキャプチャします。
我々は、シミュレーションデータセットと実ネットワークトラフィックデータセットの両方で、STANの性能を、データの品質の観点から評価する。
- 参考スコア(独自算出の注目度): 10.54843182184416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models have achieved great success in recent years but progress
in some domains like cybersecurity is stymied due to a paucity of realistic
datasets. Organizations are reluctant to share such data, even internally, due
to privacy reasons. An alternative is to use synthetically generated data but
existing methods are limited in their ability to capture complex dependency
structures, between attributes and across time. This paper presents STAN
(Synthetic network Traffic generation with Autoregressive Neural models), a
tool to generate realistic synthetic network traffic datasets for subsequent
downstream applications. Our novel neural architecture captures both temporal
dependencies and dependence between attributes at any given time. It integrates
convolutional neural layers with mixture density neural layers and softmax
layers, and models both continuous and discrete variables. We evaluate the
performance of STAN in terms of the quality of data generated, by training it
on both a simulated dataset and a real network traffic data set. Finally, to
answer the question - can real network traffic data be substituted with
synthetic data to train models of comparable accuracy? We train two anomaly
detection models based on self-supervision. The results show only a small
decline in the accuracy of models trained solely on synthetic data. While
current results are encouraging in terms of quality of data generated and
absence of any obvious data leakage from training data, in the future we plan
to further validate this fact by conducting privacy attacks on the generated
data. Other future work includes validating capture of long term dependencies
and making model training
- Abstract(参考訳): ディープラーニングモデルは近年、大きな成功を収めていますが、サイバーセキュリティのようないくつかの分野における進歩は、現実的なデータセットのパデューシティによって抑制されています。
組織はプライバシー上の理由から、そのようなデータを社内でも共有することに消極的だ。
もうひとつは、合成データを使用することだが、既存のメソッドは、属性間の複雑な依存関係構造をキャプチャする能力に制限がある。
本稿では、下流アプリケーションのためのリアルな合成ネットワークトラフィックデータセットを生成するSTAN(Synthetic Network Traffic Generation with Autoregressive Neural Model)を提案する。
当社の新しいニューラルアーキテクチャは,属性間の時間依存性と依存性を,任意のタイミングでキャプチャする。
畳み込みニューラル層と混合密度ニューラル層とソフトマックス層を統合し、連続変数と離散変数の両方をモデル化する。
シミュレーションデータセットと実際のネットワークトラヒックデータセットの両方でトレーニングすることにより,生成されたデータの品質の観点からstanの性能を評価する。
最後に、質問に答える - 実際のネットワークトラフィックデータを合成データに置き換えて、同等の精度のモデルをトレーニングできるか?
自己超越に基づく2つの異常検出モデルを訓練する。
その結果,合成データのみに基づいてトレーニングしたモデルの精度はわずかに低下した。
現在の結果は、生成されたデータの品質とトレーニングデータからの明らかなデータ漏洩の欠如という点で奨励されているが、将来的には、生成されたデータに対してプライバシ攻撃を行うことで、この事実をさらに検証する予定である。
その他の今後の作業には、長期依存の獲得とモデルトレーニングの実施が含まれる。
関連論文リスト
- How to Synthesize Text Data without Model Collapse? [37.219627817995054]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。
半合成データを得るために,人為的データに対するトークン編集を提案する。
論文 参考訳(メタデータ) (2024-12-19T09:43:39Z) - Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World [19.266191284270793]
生成機械学習モデルは、以前のモデルによって生成されたデータを含むWebスケールデータセットで事前訓練される。
先行研究の中には、ウェブが合成データに圧倒されているため、"モデル崩壊"を警告するものもある。
本稿では,3つの生成モデルタスクセットにまたがるデータ(トレーニング・ワークフロー)の3つの使い方について実験を行った。
論文 参考訳(メタデータ) (2024-10-22T05:49:24Z) - Self-Improving Diffusion Models with Synthetic Data [12.597035060380001]
シンセティックデータを用いた自己IM拡散モデル(SIMS)は、拡散モデルのための新しい訓練概念である。
SIMSは自己合成データを使用して生成プロセス中に負のガイダンスを提供する。
MADを使わずに、自己生成合成データに対して反復的に訓練できる、最初の予防的生成AIアルゴリズムである。
論文 参考訳(メタデータ) (2024-08-29T08:12:18Z) - Online Data Augmentation for Forecasting with Deep Learning [0.33554367023486936]
この研究は、ニューラルネットワークのトレーニング中に合成サンプルを生成するオンラインデータ拡張フレームワークを導入する。
トレーニングプロセスを通じて、実データと合成データのバランスの取れた表現を維持します。
オンラインデータ拡張はオフラインデータ拡張よりも予測性能が向上する、あるいは拡張アプローチがない、という実験結果が示唆されている。
論文 参考訳(メタデータ) (2024-04-25T17:16:13Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Online Evolutionary Neural Architecture Search for Multivariate
Non-Stationary Time Series Forecasting [72.89994745876086]
本研究は、オンラインニューロ進化に基づくニューラルアーキテクチャサーチ(ONE-NAS)アルゴリズムを提案する。
ONE-NASは、オンライン予測タスクのためにリカレントニューラルネットワーク(RNN)を自動設計し、動的にトレーニングする新しいニューラルネットワーク探索手法である。
その結果、ONE-NASは従来の統計時系列予測法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-20T22:25:47Z) - MLReal: Bridging the gap between training on synthetic data and real
data applications in machine learning [1.9852463786440129]
本稿では,実際のデータ特徴を持つ合成データの教師付きトレーニングを強化するための新しいアプローチについて述べる。
トレーニング段階では、入力データは合成ドメインから、自動相関データは実ドメインからである。
推論/アプリケーション段階では、入力データは実サブセットドメインからであり、自己相関区間の平均は合成データサブセットドメインからである。
論文 参考訳(メタデータ) (2021-09-11T14:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。