論文の概要: Flow Exporter Impact on Intelligent Intrusion Detection Systems
- arxiv url: http://arxiv.org/abs/2412.14021v1
- Date: Wed, 18 Dec 2024 16:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:20.664889
- Title: Flow Exporter Impact on Intelligent Intrusion Detection Systems
- Title(参考訳): インテリジェンス・インテリジェンス・インテリジェンス・システムにおけるフロー・エクスポータの影響
- Authors: Daniela Pinto, João Vitorino, Eva Maia, Ivone Amorim, Isabel Praça,
- Abstract要約: 高品質なデータセットは、機械学習モデルのトレーニングに不可欠である。
特徴発生の不整合は、脅威検出の精度と信頼性を妨げる。
本稿では,侵入検知のための機械学習モデルの性能と信頼性に及ぼす流量輸出機の影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: High-quality datasets are critical for training machine learning models, as inconsistencies in feature generation can hinder the accuracy and reliability of threat detection. For this reason, ensuring the quality of the data in network intrusion detection datasets is important. A key component of this is using reliable tools to generate the flows and features present in the datasets. This paper investigates the impact of flow exporters on the performance and reliability of machine learning models for intrusion detection. Using HERA, a tool designed to export flows and extract features, the raw network packets of two widely used datasets, UNSW-NB15 and CIC-IDS2017, were processed from PCAP files to generate new versions of these datasets. These were compared to the original ones in terms of their influence on the performance of several models, including Random Forest, XGBoost, LightGBM, and Explainable Boosting Machine. The results obtained were significant. Models trained on the HERA version of the datasets consistently outperformed those trained on the original dataset, showing improvements in accuracy and indicating a better generalisation. This highlighted the importance of flow generation in the model's ability to differentiate between benign and malicious traffic.
- Abstract(参考訳): 機能生成の不整合が脅威検出の正確性と信頼性を妨げるため、マシンラーニングモデルのトレーニングには高品質なデータセットが不可欠である。
そのため,ネットワーク侵入検出データセットにおけるデータ品質の確保が重要である。
これの重要なコンポーネントは、信頼できるツールを使用して、データセットに存在するフローと機能を生成することだ。
本稿では,侵入検知のための機械学習モデルの性能と信頼性に及ぼす流量輸出機の影響について検討する。
USW-NB15とCIC-IDS2017という2つの広く使われているデータセットの生のネットワークパケットをPCAPファイルから処理し、これらのデータセットの新バージョンを生成する。
これらは、Random Forest、XGBoost、LightGBM、Explainable Boosting Machineなど、いくつかのモデルのパフォーマンスへの影響という点で、オリジナルのものと比較された。
その結果は有意なものだった。
HERAバージョンのデータセットでトレーニングされたモデルは、元のデータセットでトレーニングされたモデルよりも一貫して優れており、精度の向上とより優れた一般化を示している。
これは、良質なトラフィックと悪意のあるトラフィックを区別するモデルの能力において、フロー生成の重要性を強調した。
関連論文リスト
- Efficient Network Traffic Feature Sets for IoT Intrusion Detection [0.0]
この研究は、複数のIoTネットワークデータセットで、Information Gain、Chi-Squared Test、Recursive Feature Elimination、Mean Absolute Deviation、Dispersion Ratioといった、さまざまな機能選択メソッドの組み合わせによって提供される機能セットを評価します。
より小さな特徴セットがMLモデルの分類性能とトレーニング時間の両方に与える影響を比較し,IoT侵入検出の計算効率を高めることを目的とした。
論文 参考訳(メタデータ) (2024-06-12T09:51:29Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Data-driven prediction of tool wear using Bayesian-regularized
artificial neural networks [8.21266434543609]
工具摩耗の予測は、製造におけるコストの最小化と製品品質の向上に役立つ。
ベイジアン正規化ニューラルネットワーク(BRANN)を用いて,加工工具の摩耗を正確に予測する新しいデータ駆動モデルを提案する。
論文 参考訳(メタデータ) (2023-11-30T15:22:20Z) - TII-SSRC-23 Dataset: Typological Exploration of Diverse Traffic Patterns
for Intrusion Detection [0.5261718469769447]
既存のデータセットは、しばしば不足しており、必要な多様性と現在のネットワーク環境との整合性が欠如している。
本稿では,これらの課題を克服するための新しい包括的データセットであるTII-SSRC-23を紹介する。
論文 参考訳(メタデータ) (2023-09-14T05:23:36Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Watermarking for Out-of-distribution Detection [76.20630986010114]
Out-of-Distribution (OOD) 検出は、よく訓練された深層モデルから抽出された表現に基づいてOODデータを識別することを目的としている。
本稿では,透かしという一般的な手法を提案する。
我々は,元データの特徴に重畳される統一パターンを学習し,ウォーターマーキング後にモデルの検出能力が大きく向上する。
論文 参考訳(メタデータ) (2022-10-27T06:12:32Z) - Data Curation and Quality Assurance for Machine Learning-based Cyber
Intrusion Detection [1.0276024900942873]
本稿では、まず、既存の機械学習ベースの侵入検知システムと、これらのシステム構築に使用されるデータセットを要約する。
実験結果から,BERT と GPT がすべてのデータセット上で HIDS に最適なアルゴリズムであることが示唆された。
そこで本論文では, HIDSデータセットが持つべき最高の特性を推定するために, 提案した品質次元に基づいて, 11データセットのデータ品質を評価する。
論文 参考訳(メタデータ) (2021-05-20T21:31:46Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Why Normalizing Flows Fail to Detect Out-of-Distribution Data [51.552870594221865]
正規化フローは、イン・オブ・ディストリビューションデータとアウト・オブ・ディストリビューションデータの区別に失敗する。
フローは局所的な画素相関と画像からラテンス空間への変換を学習する。
フロー結合層のアーキテクチャを変更することで、ターゲットデータのセマンティック構造を学ぶためのフローに偏りがあることが示される。
論文 参考訳(メタデータ) (2020-06-15T17:00:01Z) - On the Role of Dataset Quality and Heterogeneity in Model Confidence [27.657631193015252]
安全クリティカルなアプリケーションは、正確で校正された確率を出力する機械学習モデルを必要とする。
未分類のディープネットワークは、過度に信頼された予測をすることが知られている。
本研究では,データセットサイズとラベルノイズがモデルの信頼性に与える影響について検討した。
論文 参考訳(メタデータ) (2020-02-23T05:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。