論文の概要: Effect of Balancing Data Using Synthetic Data on the Performance of
Machine Learning Classifiers for Intrusion Detection in Computer Networks
- arxiv url: http://arxiv.org/abs/2204.00144v1
- Date: Fri, 1 Apr 2022 00:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 14:38:27.318290
- Title: Effect of Balancing Data Using Synthetic Data on the Performance of
Machine Learning Classifiers for Intrusion Detection in Computer Networks
- Title(参考訳): コンピュータネットワークの侵入検出のための機械学習分類器の性能に及ぼす合成データを用いたデータバランスの影響
- Authors: Ayesha S. Dina and A. B. Siddique and D. Manivannan
- Abstract要約: アカデミックと産業の研究者たちは、コンピュータネットワークのための侵入検知システム(IDSe)の設計と実装に機械学習(ML)技術を使用した。
このようなシステムで使用される多くのデータセットでは、データは不均衡である(つまり、すべてのクラスが同じ量のサンプルを持っているわけではない)。
また,CTGANが生成した合成試料とバランスの取れたデータセット上でのMLモデルのトレーニングにより,予測精度が最大8%向上した。
- 参考スコア(独自算出の注目度): 3.233545237942899
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Attacks on computer networks have increased significantly in recent days, due
in part to the availability of sophisticated tools for launching such attacks
as well as thriving underground cyber-crime economy to support it. Over the
past several years, researchers in academia and industry used machine learning
(ML) techniques to design and implement Intrusion Detection Systems (IDSes) for
computer networks. Many of these researchers used datasets collected by various
organizations to train ML models for predicting intrusions. In many of the
datasets used in such systems, data are imbalanced (i.e., not all classes have
equal amount of samples). With unbalanced data, the predictive models developed
using ML algorithms may produce unsatisfactory classifiers which would affect
accuracy in predicting intrusions. Traditionally, researchers used
over-sampling and under-sampling for balancing data in datasets to overcome
this problem. In this work, in addition to over-sampling, we also use a
synthetic data generation method, called Conditional Generative Adversarial
Network (CTGAN), to balance data and study their effect on various ML
classifiers. To the best of our knowledge, no one else has used CTGAN to
generate synthetic samples to balance intrusion detection datasets. Based on
extensive experiments using a widely used dataset NSL-KDD, we found that
training ML models on dataset balanced with synthetic samples generated by
CTGAN increased prediction accuracy by up to $8\%$, compared to training the
same ML models over unbalanced data. Our experiments also show that the
accuracy of some ML models trained over data balanced with random over-sampling
decline compared to the same ML models trained over unbalanced data.
- Abstract(参考訳): コンピュータネットワークへの攻撃は、そのような攻撃を起動するための高度なツールが利用可能であることや、それをサポートするための地下サイバー犯罪経済が繁栄していることから、近年著しく増加している。
過去数年間、学界や産業の研究者は、コンピュータネットワークのための侵入検知システム(idses)の設計と実装に機械学習(ml)技術を用いた。
これらの研究者の多くは、さまざまな組織が収集したデータセットを使用して、侵入を予測するMLモデルをトレーニングした。
このようなシステムで使用される多くのデータセットでは、データは不均衡である(つまり、すべてのクラスが同じ量のサンプルを持っているわけではない)。
MLアルゴリズムを用いて開発された予測モデルは、不均衡なデータを用いて、侵入の予測精度に影響を与える不満足な分類器を生成する。
従来、研究者はデータセット内のデータのバランスをとるために過剰サンプリングとアンダーサンプリングを使用していた。
本研究では、オーバーサンプリングに加えて、CTGAN(Conditional Generative Adversarial Network)と呼ばれる合成データ生成手法を用いて、データのバランスをとり、さまざまなML分類器への影響を研究する。
我々の知る限りでは、CTGANを使って合成サンプルを生成して侵入検出データセットのバランスをとる人はいない。
広範に使用されているデータセットNSL-KDDを用いた広範な実験の結果,CTGANが生成した合成サンプルとバランスの取れたデータセット上でのMLモデルのトレーニングは,非バランスなデータ上でのMLモデルのトレーニングと比較して,予測精度を最大8\%向上することがわかった。
また,不均衡データ上でトレーニングされた同一mlモデルと比較して,ランダムなオーバーサンプリング低下を伴うデータバランスでトレーニングされたmlモデルの精度を示す実験を行った。
関連論文リスト
- Diffusion-based Neural Network Weights Generation [85.6725307453325]
データセット条件付き事前学習重み抽出による効率よく適応的な伝達学習手法を提案する。
具体的には、ニューラルネットワークの重みを再構築できる変分オートエンコーダを備えた潜時拡散モデルを用いる。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - Machine Learning Data Suitability and Performance Testing Using Fault
Injection Testing Framework [0.0]
本稿では,入力データ(FIUL-Data)テストフレームワークにおける望ましくない学習のためのフォールトインジェクションを提案する。
データミュータは、さまざまな障害注入の影響に対して、MLシステムの脆弱性を探索する。
本稿では, アンチセンスオリゴヌクレオチドの保持時間測定を含む分析化学データを用いて, フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-09-20T12:58:35Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - Towards Understanding How Data Augmentation Works with Imbalanced Data [17.478900028887537]
本稿では,データ拡張が3つの異なる分類器,畳み込みニューラルネットワーク,サポートベクトルマシン,ロジスティック回帰モデルに与える影響について検討する。
本研究は,不均衡データに適用した場合,モデル重み,サポートベクトル,特徴選択に大きな変化が生じることを示す。
DAはデータの分散を促進することによって機能し、機械学習モデルがデータの変化とラベルを関連付けることができる、という仮説を立てる。
論文 参考訳(メタデータ) (2023-04-12T15:01:22Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Effective Class-Imbalance learning based on SMOTE and Convolutional
Neural Networks [0.1074267520911262]
不均衡データ(ID)は、機械学習(ML)モデルから満足な結果を得るための問題である。
本稿では,Deep Neural Networks(DNN)とConvolutional Neural Networks(CNN)に基づく手法の有効性を検討する。
信頼性の高い結果を得るために,ランダムにシャッフルしたデータ分布を用いて100回実験を行った。
論文 参考訳(メタデータ) (2022-09-01T07:42:16Z) - Towards Synthetic Multivariate Time Series Generation for Flare
Forecasting [5.098461305284216]
データ駆動・レアイベント予測アルゴリズムのトレーニングにおける制限要因の1つは、関心のあるイベントの不足である。
本研究では,データインフォームド・オーバーサンプリングを行う手段として,条件付き生成逆数ネットワーク(CGAN)の有用性を検討する。
論文 参考訳(メタデータ) (2021-05-16T22:23:23Z) - Statistical model-based evaluation of neural networks [74.10854783437351]
ニューラルネットワーク(NN)の評価のための実験装置を開発する。
このセットアップは、NNs vis-a-vis minimum-mean-square-error (MMSE)パフォーマンス境界のベンチマークに役立つ。
これにより、トレーニングデータサイズ、データ次元、データ幾何学、ノイズ、トレーニング条件とテスト条件のミスマッチの影響をテストできます。
論文 参考訳(メタデータ) (2020-11-18T00:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。