Fugu-MT 論文翻訳(概要): STAN: Synthetic Network Traffic Generation with Generative Neural Models

論文の概要: STAN: Synthetic Network Traffic Generation with Generative Neural Models

arxiv url: http://arxiv.org/abs/2009.12740v2
Date: Tue, 3 Aug 2021 02:48:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-14 03:52:39.773185
Title: STAN: Synthetic Network Traffic Generation with Generative Neural Models
Title（参考訳）: STAN:生成ニューラルモデルを用いた合成ネットワークトラフィック生成
Authors: Shengzhe Xu, Manish Marwah, Martin Arlitt, Naren Ramakrishnan
Abstract要約: 本稿では,現実的な合成ネットワークトラフィックデータセットを生成するためのSTAN(Synthetic Network Traffic Generation with Autoregressive Neural Model)を提案する。私たちの新しいニューラルアーキテクチャは、常に属性間の時間的依存関係と依存の両方をキャプチャします。我々は、シミュレーションデータセットと実ネットワークトラフィックデータセットの両方で、STANの性能を、データの品質の観点から評価する。
参考スコア（独自算出の注目度）: 10.54843182184416
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning models have achieved great success in recent years but progress in some domains like cybersecurity is stymied due to a paucity of realistic datasets. Organizations are reluctant to share such data, even internally, due to privacy reasons. An alternative is to use synthetically generated data but existing methods are limited in their ability to capture complex dependency structures, between attributes and across time. This paper presents STAN (Synthetic network Traffic generation with Autoregressive Neural models), a tool to generate realistic synthetic network traffic datasets for subsequent downstream applications. Our novel neural architecture captures both temporal dependencies and dependence between attributes at any given time. It integrates convolutional neural layers with mixture density neural layers and softmax layers, and models both continuous and discrete variables. We evaluate the performance of STAN in terms of the quality of data generated, by training it on both a simulated dataset and a real network traffic data set. Finally, to answer the question - can real network traffic data be substituted with synthetic data to train models of comparable accuracy? We train two anomaly detection models based on self-supervision. The results show only a small decline in the accuracy of models trained solely on synthetic data. While current results are encouraging in terms of quality of data generated and absence of any obvious data leakage from training data, in the future we plan to further validate this fact by conducting privacy attacks on the generated data. Other future work includes validating capture of long term dependencies and making model training
Abstract（参考訳）: ディープラーニングモデルは近年、大きな成功を収めていますが、サイバーセキュリティのようないくつかの分野における進歩は、現実的なデータセットのパデューシティによって抑制されています。組織はプライバシー上の理由から、そのようなデータを社内でも共有することに消極的だ。もうひとつは、合成データを使用することだが、既存のメソッドは、属性間の複雑な依存関係構造をキャプチャする能力に制限がある。本稿では、下流アプリケーションのためのリアルな合成ネットワークトラフィックデータセットを生成するSTAN(Synthetic Network Traffic Generation with Autoregressive Neural Model)を提案する。当社の新しいニューラルアーキテクチャは,属性間の時間依存性と依存性を,任意のタイミングでキャプチャする。畳み込みニューラル層と混合密度ニューラル層とソフトマックス層を統合し、連続変数と離散変数の両方をモデル化する。シミュレーションデータセットと実際のネットワークトラヒックデータセットの両方でトレーニングすることにより,生成されたデータの品質の観点からstanの性能を評価する。最後に、質問に答える - 実際のネットワークトラフィックデータを合成データに置き換えて、同等の精度のモデルをトレーニングできるか? 自己超越に基づく2つの異常検出モデルを訓練する。その結果,合成データのみに基づいてトレーニングしたモデルの精度はわずかに低下した。現在の結果は、生成されたデータの品質とトレーニングデータからの明らかなデータ漏洩の欠如という点で奨励されているが、将来的には、生成されたデータに対してプライバシ攻撃を行うことで、この事実をさらに検証する予定である。その他の今後の作業には、長期依存の獲得とモデルトレーニングの実施が含まれる。

関連論文リスト

Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
How to Synthesize Text Data without Model Collapse? [37.219627817995054]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。半合成データを得るために,人為的データに対するトークン編集を提案する。
論文参考訳（メタデータ） (2024-12-19T09:43:39Z)
Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World [19.266191284270793]
生成機械学習モデルは、以前のモデルによって生成されたデータを含むWebスケールデータセットで事前訓練される。先行研究の中には、ウェブが合成データに圧倒されているため、"モデル崩壊"を警告するものもある。本稿では,3つの生成モデルタスクセットにまたがるデータ(トレーニング・ワークフロー)の3つの使い方について実験を行った。
論文参考訳（メタデータ） (2024-10-22T05:49:24Z)
Self-Improving Diffusion Models with Synthetic Data [12.597035060380001]
シンセティックデータを用いた自己IM拡散モデル(SIMS)は、拡散モデルのための新しい訓練概念である。 SIMSは自己合成データを使用して生成プロセス中に負のガイダンスを提供する。 MADを使わずに、自己生成合成データに対して反復的に訓練できる、最初の予防的生成AIアルゴリズムである。
論文参考訳（メタデータ） (2024-08-29T08:12:18Z)
Mind the Gap Between Synthetic and Real: Utilizing Transfer Learning to Probe the Boundaries of Stable Diffusion Generated Data [2.6016285265085526]
学生モデルは、実際のデータで訓練されたモデルと比較して、精度が著しく低下している。実データまたは合成データを用いてこれらのレイヤをトレーニングすることにより、ドロップが主にモデルの最終的なレイヤに由来することを明らかにする。この結果から,実際のトレーニングデータの量とモデルの精度とのトレードオフの改善が示唆された。
論文参考訳（メタデータ） (2024-05-06T07:51:13Z)
Online Data Augmentation for Forecasting with Deep Learning [0.33554367023486936]
この研究は、ニューラルネットワークのトレーニング中に合成サンプルを生成するオンラインデータ拡張フレームワークを導入する。トレーニングプロセスを通じて、実データと合成データのバランスの取れた表現を維持します。オンラインデータ拡張はオフラインデータ拡張よりも予測性能が向上する、あるいは拡張アプローチがない、という実験結果が示唆されている。
論文参考訳（メタデータ） (2024-04-25T17:16:13Z)
Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文参考訳（メタデータ） (2024-02-19T02:08:09Z)
Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。このようなモデルは大きい傾向があり、訓練データの総量を必要とする。人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文参考訳（メタデータ） (2023-11-02T01:51:43Z)
On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文参考訳（メタデータ） (2023-09-30T16:41:04Z)
Exploring the Effectiveness of Dataset Synthesis: An application of Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文参考訳（メタデータ） (2023-06-20T09:46:01Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
A New Benchmark: On the Utility of Synthetic Data with Blender for Bare Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文参考訳（メタデータ） (2023-03-16T09:03:52Z)
Online Evolutionary Neural Architecture Search for Multivariate Non-Stationary Time Series Forecasting [72.89994745876086]
本研究は、オンラインニューロ進化に基づくニューラルアーキテクチャサーチ(ONE-NAS)アルゴリズムを提案する。 ONE-NASは、オンライン予測タスクのためにリカレントニューラルネットワーク(RNN)を自動設計し、動的にトレーニングする新しいニューラルネットワーク探索手法である。その結果、ONE-NASは従来の統計時系列予測法よりも優れていた。
論文参考訳（メタデータ） (2023-02-20T22:25:47Z)
MLReal: Bridging the gap between training on synthetic data and real data applications in machine learning [1.9852463786440129]
本稿では,実際のデータ特徴を持つ合成データの教師付きトレーニングを強化するための新しいアプローチについて述べる。トレーニング段階では、入力データは合成ドメインから、自動相関データは実ドメインからである。推論/アプリケーション段階では、入力データは実サブセットドメインからであり、自己相関区間の平均は合成データサブセットドメインからである。
論文参考訳（メタデータ） (2021-09-11T14:43:34Z)
Synthesizing Irreproducibility in Deep Networks [2.28438857884398]
現代のディープネットワークは非生産性に苦しむ(非決定性または不特定化とも呼ばれる) 単一の非線形性や非常に単純なデータやモデルであっても、不再現性が生じることを示す。モデルの複雑さと非線形性の選択は、深いモデルを再現不能にする上で重要な役割を果たす。
論文参考訳（メタデータ） (2021-02-21T21:51:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。