論文の概要: Effect of Balancing Data Using Synthetic Data on the Performance of
Machine Learning Classifiers for Intrusion Detection in Computer Networks
- arxiv url: http://arxiv.org/abs/2204.00144v1
- Date: Fri, 1 Apr 2022 00:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 14:38:27.318290
- Title: Effect of Balancing Data Using Synthetic Data on the Performance of
Machine Learning Classifiers for Intrusion Detection in Computer Networks
- Title(参考訳): コンピュータネットワークの侵入検出のための機械学習分類器の性能に及ぼす合成データを用いたデータバランスの影響
- Authors: Ayesha S. Dina and A. B. Siddique and D. Manivannan
- Abstract要約: アカデミックと産業の研究者たちは、コンピュータネットワークのための侵入検知システム(IDSe)の設計と実装に機械学習(ML)技術を使用した。
このようなシステムで使用される多くのデータセットでは、データは不均衡である(つまり、すべてのクラスが同じ量のサンプルを持っているわけではない)。
また,CTGANが生成した合成試料とバランスの取れたデータセット上でのMLモデルのトレーニングにより,予測精度が最大8%向上した。
- 参考スコア(独自算出の注目度): 3.233545237942899
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Attacks on computer networks have increased significantly in recent days, due
in part to the availability of sophisticated tools for launching such attacks
as well as thriving underground cyber-crime economy to support it. Over the
past several years, researchers in academia and industry used machine learning
(ML) techniques to design and implement Intrusion Detection Systems (IDSes) for
computer networks. Many of these researchers used datasets collected by various
organizations to train ML models for predicting intrusions. In many of the
datasets used in such systems, data are imbalanced (i.e., not all classes have
equal amount of samples). With unbalanced data, the predictive models developed
using ML algorithms may produce unsatisfactory classifiers which would affect
accuracy in predicting intrusions. Traditionally, researchers used
over-sampling and under-sampling for balancing data in datasets to overcome
this problem. In this work, in addition to over-sampling, we also use a
synthetic data generation method, called Conditional Generative Adversarial
Network (CTGAN), to balance data and study their effect on various ML
classifiers. To the best of our knowledge, no one else has used CTGAN to
generate synthetic samples to balance intrusion detection datasets. Based on
extensive experiments using a widely used dataset NSL-KDD, we found that
training ML models on dataset balanced with synthetic samples generated by
CTGAN increased prediction accuracy by up to $8\%$, compared to training the
same ML models over unbalanced data. Our experiments also show that the
accuracy of some ML models trained over data balanced with random over-sampling
decline compared to the same ML models trained over unbalanced data.
- Abstract(参考訳): コンピュータネットワークへの攻撃は、そのような攻撃を起動するための高度なツールが利用可能であることや、それをサポートするための地下サイバー犯罪経済が繁栄していることから、近年著しく増加している。
過去数年間、学界や産業の研究者は、コンピュータネットワークのための侵入検知システム(idses)の設計と実装に機械学習(ml)技術を用いた。
これらの研究者の多くは、さまざまな組織が収集したデータセットを使用して、侵入を予測するMLモデルをトレーニングした。
このようなシステムで使用される多くのデータセットでは、データは不均衡である(つまり、すべてのクラスが同じ量のサンプルを持っているわけではない)。
MLアルゴリズムを用いて開発された予測モデルは、不均衡なデータを用いて、侵入の予測精度に影響を与える不満足な分類器を生成する。
従来、研究者はデータセット内のデータのバランスをとるために過剰サンプリングとアンダーサンプリングを使用していた。
本研究では、オーバーサンプリングに加えて、CTGAN(Conditional Generative Adversarial Network)と呼ばれる合成データ生成手法を用いて、データのバランスをとり、さまざまなML分類器への影響を研究する。
我々の知る限りでは、CTGANを使って合成サンプルを生成して侵入検出データセットのバランスをとる人はいない。
広範に使用されているデータセットNSL-KDDを用いた広範な実験の結果,CTGANが生成した合成サンプルとバランスの取れたデータセット上でのMLモデルのトレーニングは,非バランスなデータ上でのMLモデルのトレーニングと比較して,予測精度を最大8\%向上することがわかった。
また,不均衡データ上でトレーニングされた同一mlモデルと比較して,ランダムなオーバーサンプリング低下を伴うデータバランスでトレーニングされたmlモデルの精度を示す実験を行った。
関連論文リスト
- An Investigation on Machine Learning Predictive Accuracy Improvement and Uncertainty Reduction using VAE-based Data Augmentation [2.517043342442487]
深層生成学習は、特定のMLモデルを使用して、既存のデータの基盤となる分布を学習し、実際のデータに似た合成サンプルを生成する。
本研究では,変分オートエンコーダ(VAE)を用いた深部生成モデルを用いて,データ拡張の有効性を評価することを目的とする。
本研究では,拡張データを用いてトレーニングしたディープニューラルネットワーク(DNN)モデルの予測において,データ拡張が精度の向上につながるかどうかを検討した。
論文 参考訳(メタデータ) (2024-10-24T18:15:48Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Machine Learning Data Suitability and Performance Testing Using Fault
Injection Testing Framework [0.0]
本稿では,入力データ(FIUL-Data)テストフレームワークにおける望ましくない学習のためのフォールトインジェクションを提案する。
データミュータは、さまざまな障害注入の影響に対して、MLシステムの脆弱性を探索する。
本稿では, アンチセンスオリゴヌクレオチドの保持時間測定を含む分析化学データを用いて, フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-09-20T12:58:35Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Effective Class-Imbalance learning based on SMOTE and Convolutional
Neural Networks [0.1074267520911262]
不均衡データ(ID)は、機械学習(ML)モデルから満足な結果を得るための問題である。
本稿では,Deep Neural Networks(DNN)とConvolutional Neural Networks(CNN)に基づく手法の有効性を検討する。
信頼性の高い結果を得るために,ランダムにシャッフルしたデータ分布を用いて100回実験を行った。
論文 参考訳(メタデータ) (2022-09-01T07:42:16Z) - Towards Synthetic Multivariate Time Series Generation for Flare
Forecasting [5.098461305284216]
データ駆動・レアイベント予測アルゴリズムのトレーニングにおける制限要因の1つは、関心のあるイベントの不足である。
本研究では,データインフォームド・オーバーサンプリングを行う手段として,条件付き生成逆数ネットワーク(CGAN)の有用性を検討する。
論文 参考訳(メタデータ) (2021-05-16T22:23:23Z) - Statistical model-based evaluation of neural networks [74.10854783437351]
ニューラルネットワーク(NN)の評価のための実験装置を開発する。
このセットアップは、NNs vis-a-vis minimum-mean-square-error (MMSE)パフォーマンス境界のベンチマークに役立つ。
これにより、トレーニングデータサイズ、データ次元、データ幾何学、ノイズ、トレーニング条件とテスト条件のミスマッチの影響をテストできます。
論文 参考訳(メタデータ) (2020-11-18T00:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。