Fugu-MT 論文翻訳(概要): Data Curation and Quality Assurance for Machine Learning-based Cyber Intrusion Detection

論文の概要: Data Curation and Quality Assurance for Machine Learning-based Cyber Intrusion Detection

arxiv url: http://arxiv.org/abs/2105.10041v1
Date: Thu, 20 May 2021 21:31:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-25 03:16:44.024425
Title: Data Curation and Quality Assurance for Machine Learning-based Cyber Intrusion Detection
Title（参考訳）: 機械学習によるサイバー侵入検出のためのデータキュレーションと品質保証
Authors: Haihua Chen, Ngan Tran, Anand Sagar Thumati, Jay Bhuyan, Junhua Ding
Abstract要約: 本稿では、まず、既存の機械学習ベースの侵入検知システムと、これらのシステム構築に使用されるデータセットを要約する。実験結果から,BERT と GPT がすべてのデータセット上で HIDS に最適なアルゴリズムであることが示唆された。そこで本論文では, HIDSデータセットが持つべき最高の特性を推定するために, 提案した品質次元に基づいて, 11データセットのデータ品質を評価する。
参考スコア（独自算出の注目度）: 1.0276024900942873
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Intrusion detection is an essential task in the cyber threat environment. Machine learning and deep learning techniques have been applied for intrusion detection. However, most of the existing research focuses on the model work but ignores the fact that poor data quality has a direct impact on the performance of a machine learning system. More attention should be paid to the data work when building a machine learning-based intrusion detection system. This article first summarizes existing machine learning-based intrusion detection systems and the datasets used for building these systems. Then the data preparation workflow and quality requirements for intrusion detection are discussed. To figure out how data and models affect machine learning performance, we conducted experiments on 11 HIDS datasets using seven machine learning models and three deep learning models. The experimental results show that BERT and GPT were the best algorithms for HIDS on all of the datasets. However, the performance on different datasets varies, indicating the differences between the data quality of these datasets. We then evaluate the data quality of the 11 datasets based on quality dimensions proposed in this paper to determine the best characteristics that a HIDS dataset should possess in order to yield the best possible result. This research initiates a data quality perspective for researchers and practitioners to improve the performance of machine learning-based intrusion detection.
Abstract（参考訳）: 侵入検知はサイバー脅威環境において重要な課題である。侵入検知には機械学習とディープラーニング技術が応用されている。しかし、既存の研究のほとんどはモデルの開発に焦点を当てているが、データ品質の低さが機械学習システムのパフォーマンスに直接影響を与えるという事実は無視している。機械学習ベースの侵入検知システムを構築する際に、データワークにもっと注意を払う必要がある。本稿では、まず、既存の機械学習ベースの侵入検知システムと、これらのシステム構築に使用されるデータセットを要約する。次に、侵入検知のためのデータ準備ワークフローと品質要件について論じる。データとモデルが機械学習のパフォーマンスに与える影響を明らかにするために,機械学習モデル7とディープラーニングモデル3を用いて,11のHIDSデータセットの実験を行った。実験の結果,BERT と GPT がすべてのデータセット上で HIDS に最適なアルゴリズムであった。しかし、異なるデータセットのパフォーマンスは異なり、これらのデータセットのデータ品質の違いを示している。次に,本論文で提案する品質寸法に基づいて,11個のデータセットのデータ品質を評価することにより,最適な結果を得るために,hidsデータセットが持つべき最良特性を決定する。本研究は,機械学習による侵入検知の性能向上を図るため,研究者や実践者のデータ品質の観点を創出する。

関連論文リスト

Predict Training Data Quality via Its Geometry in Metric Space [7.056460460498077]
本稿では,学習結果に重要な影響を与える訓練データにおける表現の豊かさと冗長性の排除を提案する。これを調べるために,距離空間内のデータから位相的特徴を抽出するために,永続的ホモロジーを用いる。この結果から,AIシステムを駆動するトレーニングデータを解析・拡張するための強力なツールとして,永続的ホモロジーが注目されている。
論文参考訳（メタデータ） (2025-10-12T16:59:28Z)
Flow Exporter Impact on Intelligent Intrusion Detection Systems [0.0]
高品質なデータセットは、機械学習モデルのトレーニングに不可欠である。特徴発生の不整合は、脅威検出の精度と信頼性を妨げる。本稿では,侵入検知のための機械学習モデルの性能と信頼性に及ぼす流量輸出機の影響について検討する。
論文参考訳（メタデータ） (2024-12-18T16:38:20Z)
Towards Understanding the Impact of Data Bugs on Deep Learning Models in Software Engineering [13.17302533571231]
ディープラーニング(DL)システムは、トレーニングデータを含む多くのソースからのバグがちである。既存の文献では、トレーニングデータのバグが非常に多いことが示唆されている。本稿では,コードベース,テキストベース,メトリックベースの3種類のデータについて検討する。
論文参考訳（メタデータ） (2024-11-19T00:28:20Z)
On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T14:01:53Z)
TII-SSRC-23 Dataset: Typological Exploration of Diverse Traffic Patterns for Intrusion Detection [0.5261718469769447]
既存のデータセットは、しばしば不足しており、必要な多様性と現在のネットワーク環境との整合性が欠如している。本稿では,これらの課題を克服するための新しい包括的データセットであるTII-SSRC-23を紹介する。
論文参考訳（メタデータ） (2023-09-14T05:23:36Z)
Defect Classification in Additive Manufacturing Using CNN-Based Vision Processing [76.72662577101988]
本稿では、まず、畳み込みニューラルネットワーク(CNN)を用いて、画像データセットの欠陥をAMから第2に正確に分類し、発達した分類モデルにアクティブラーニング技術を適用する。これにより、トレーニングデータやトレーニングデータの生成に必要なデータのサイズを削減できる、ヒューマン・イン・ザ・ループ機構の構築が可能になる。
論文参考訳（メタデータ） (2023-07-14T14:36:58Z)
ECS -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
データ品質の保証のための新しいアプローチを提案する。この目的のために、まず数学的基礎を議論し、そのアプローチを複数の例を用いて提示する。これにより、安全クリティカルなシステムにおいて、潜在的に有害な特性を持つデータポイントが検出される。
論文参考訳（メタデータ） (2023-07-10T06:49:18Z)
Assessing Dataset Quality Through Decision Tree Characteristics in Autoencoder-Processed Spaces [0.30458514384586394]
データセットの品質がモデルトレーニングとパフォーマンスに深く影響していることを示します。以上の結果から,適切な特徴選択,適切なデータボリューム,データ品質の重要性が浮き彫りになった。この研究は、データアセスメントのプラクティスに関する貴重な洞察を提供し、より正確で堅牢な機械学習モデルの開発に寄与する。
論文参考訳（メタデータ） (2023-06-27T11:33:31Z)
Striving for data-model efficiency: Identifying data externalities on group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文参考訳（メタデータ） (2022-11-11T16:48:27Z)
Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文参考訳（メタデータ） (2022-09-05T16:48:34Z)
Data Quality Toolkit: Automatic assessment of data quality and remediation for machine learning datasets [11.417891017429882]
Data Quality Toolkit for Machine Learningは、いくつかの重要な品質指標と関連する修復テクニックのライブラリである。データ準備パイプラインのターンアラウンド時間を短縮し、データ品質評価プロセスを合理化する。
論文参考訳（メタデータ） (2021-08-12T19:22:27Z)
Data Quality Measures and Efficient Evaluation Algorithms for Large-Scale High-Dimensional Data [0.15229257192293197]
データ品質の2つの重要な側面であるクラス分離性とクラス内の変動性を計算する2つのデータ品質対策を提案します。ランダムなプロジェクションとブートストレッピングに基づいて,大規模高次元データに対する統計的利点を生かした品質測定を効率的に行うアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-01-05T10:23:08Z)
AutoOD: Automated Outlier Detection via Curiosity-guided Search and Self-imitation Learning [72.99415402575886]
外乱検出は重要なデータマイニングの課題であり、多くの実用的応用がある。本稿では,最適なニューラルネットワークモデルを探すことを目的とした自動外乱検出フレームワークであるAutoODを提案する。さまざまな実世界のベンチマークデータセットに対する実験結果から、AutoODが特定したディープモデルが最高のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2020-06-19T18:57:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。