論文の概要: Cyber Security Data Science: Machine Learning Methods and their Performance on Imbalanced Datasets
- arxiv url: http://arxiv.org/abs/2505.04204v1
- Date: Wed, 07 May 2025 07:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.005958
- Title: Cyber Security Data Science: Machine Learning Methods and their Performance on Imbalanced Datasets
- Title(参考訳): サイバーセキュリティデータサイエンス:不均衡データセットにおける機械学習手法とその性能
- Authors: Mateo Lopez-Ledezma, Gissel Velarde,
- Abstract要約: サイバーセキュリティは世界中のあらゆるレベルで、個人、機関、政府に欠かせないものとなっている。
いくつかのサイバーセキュリティアプリケーションは、異常検出、不正検出、侵入検出、スパム検出、マルウェア検出など、バイナリ分類の問題として対処できる。
最初の実験では, ランダムフォレスト, ライトグラディエントブースティングマシン, eXtreme Gradient Boosting, Logistic Regression, Decision Tree, Gradient Boosting Decision Treeなど, 単一分類器の評価を行った。
第2の実験では、オーバーサンプリング、アンダーサンプリング、シンセティックマイノリティオーバーサンプリング技術、セルフペーストエンなど、さまざまなサンプリング手法を試した。
- 参考スコア(独自算出の注目度): 0.1601392577755919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cybersecurity has become essential worldwide and at all levels, concerning individuals, institutions, and governments. A basic principle in cybersecurity is to be always alert. Therefore, automation is imperative in processes where the volume of daily operations is large. Several cybersecurity applications can be addressed as binary classification problems, including anomaly detection, fraud detection, intrusion detection, spam detection, or malware detection. We present three experiments. In the first experiment, we evaluate single classifiers including Random Forests, Light Gradient Boosting Machine, eXtreme Gradient Boosting, Logistic Regression, Decision Tree, and Gradient Boosting Decision Tree. In the second experiment, we test different sampling techniques including over-sampling, under-sampling, Synthetic Minority Over-sampling Technique, and Self-Paced Ensembling. In the last experiment, we evaluate Self-Paced Ensembling and its number of base classifiers. We found that imbalance learning techniques had positive and negative effects, as reported in related studies. Thus, these techniques should be applied with caution. Besides, we found different best performers for each dataset. Therefore, we recommend testing single classifiers and imbalance learning techniques for each new dataset and application involving imbalanced datasets as is the case in several cyber security applications.
- Abstract(参考訳): サイバーセキュリティは世界中のあらゆるレベルで、個人、機関、政府に欠かせないものとなっている。
サイバーセキュリティの基本原則は、常に警告することです。
したがって、日々の作業量が大きいプロセスでは自動化が不可欠である。
いくつかのサイバーセキュリティアプリケーションは、異常検出、不正検出、侵入検出、スパム検出、マルウェア検出など、バイナリ分類の問題として対処できる。
実験は3つある。
最初の実験では、ランダムフォレスト、ライトグラディエントブースティングマシン、eXtremeグラディエントブースティング、ロジスティック回帰、決定木、グラディエントブースティング決定木などの単一分類器の評価を行った。
第2の実験では, オーバーサンプリング, アンダーサンプリング, シンセティックマイノリティオーバーサンプリング, セルフペーストエンセブリングなど, さまざまなサンプリング手法を試験した。
前回の実験では, 自己組立とその基本分類器数について評価した。
その結果,非バランス学習手法は正および負の効果が認められた。
したがって、これらの技法は慎重に適用されるべきである。
さらに、データセットごとに異なる最高のパフォーマーを見つけました。
そこで我々は,複数のサイバーセキュリティアプリケーションの場合のように,新しいデータセットと不均衡なデータセットを含むアプリケーションに対して,単一分類器と不均衡学習手法をテストすることを推奨する。
関連論文リスト
- Imbalanced malware classification: an approach based on dynamic classifier selection [0.0]
マルウェア検出における重要な課題は、ほとんどのアプリケーションが良心的であり、脅威を呈するわずかな部分しか存在しないデータセットの不均衡である。
本研究は,Androidアプリケーションにおけるマルウェア検出のための各種機械学習戦略を評価することにより,マルウェア検出におけるクラス不均衡の問題に対処する。
論文 参考訳(メタデータ) (2025-03-30T19:12:16Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Few-shot Weakly-supervised Cybersecurity Anomaly Detection [1.179179628317559]
本稿では,既存の弱教師付きディープラーニング異常検出フレームワークの強化を提案する。
このフレームワークには、データ拡張、表現学習、順序回帰が含まれている。
そして、3つのベンチマークデータセット上で実装したフレームワークの性能を評価した。
論文 参考訳(メタデータ) (2023-04-15T04:37:54Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Intrusion Detection: Machine Learning Baseline Calculations for Image
Classification [0.0]
サイバーセキュリティは、機械学習の適用によって強化できる。
最も期待できる候補は、ライトマシン、ランダムフォレストブースト、エクストラツリーズである。
論文 参考訳(メタデータ) (2021-11-03T17:49:38Z) - Anomaly Detection in Cybersecurity: Unsupervised, Graph-Based and
Supervised Learning Methods in Adversarial Environments [63.942632088208505]
現在の運用環境に固有ののは、敵対的機械学習の実践である。
本研究では,教師なし学習とグラフに基づく異常検出の可能性を検討する。
我々は,教師付きモデルの訓練時に,現実的な対人訓練機構を組み込んで,対人環境における強力な分類性能を実現する。
論文 参考訳(メタデータ) (2021-05-14T10:05:10Z) - CyberLearning: Effectiveness Analysis of Machine Learning Security
Modeling to Detect Cyber-Anomalies and Multi-Attacks [5.672898304129217]
サイバーラーニング(CyberLearning)は、相関機能選択による機械学習ベースのサイバーセキュリティモデリングである。
本稿では,異常検出のためのバイナリ分類モデルと,各種サイバー攻撃に対するマルチクラス分類モデルについて考察する。
次に、複数の隠蔽層を考慮した人工知能ニューラルネットワークベースのセキュリティモデルを提案する。
論文 参考訳(メタデータ) (2021-03-28T18:47:16Z) - Bias in Multimodal AI: Testbed for Fair Automatic Recruitment [73.85525896663371]
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
我々は、性別や人種の偏りを意識的に評価したマルチモーダルな合成プロファイルを用いて、自動求人アルゴリズムを訓練する。
我々の方法論と結果は、一般により公平なAIベースのツール、特により公平な自動採用システムを生成する方法を示している。
論文 参考訳(メタデータ) (2020-04-15T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。