論文の概要: Performance of Machine Learning Classifiers for Anomaly Detection in Cyber Security Applications
- arxiv url: http://arxiv.org/abs/2504.18771v1
- Date: Sat, 26 Apr 2025 02:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.983729
- Title: Performance of Machine Learning Classifiers for Anomaly Detection in Cyber Security Applications
- Title(参考訳): サイバーセキュリティアプリケーションにおける異常検出のための機械学習分類器の性能
- Authors: Markus Haug, Gissel Velarde,
- Abstract要約: この研究は、2つの不均衡なパブリックデータセット上の機械学習モデルを実証的に評価する。
テスト対象はeXtreme Gradient Boosting (XGB) と Multi Layer Perceptron (MLP) である。
IterativeImputerの結果は平均値と中央値に匹敵するが、複雑性と実行時間の増加のために大規模なデータセットには推奨されない。
- 参考スコア(独自算出の注目度): 0.1601392577755919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work empirically evaluates machine learning models on two imbalanced public datasets (KDDCUP99 and Credit Card Fraud 2013). The method includes data preparation, model training, and evaluation, using an 80/20 (train/test) split. Models tested include eXtreme Gradient Boosting (XGB), Multi Layer Perceptron (MLP), Generative Adversarial Network (GAN), Variational Autoencoder (VAE), and Multiple-Objective Generative Adversarial Active Learning (MO-GAAL), with XGB and MLP further combined with Random-Over-Sampling (ROS) and Self-Paced-Ensemble (SPE). Evaluation involves 5-fold cross-validation and imputation techniques (mean, median, and IterativeImputer) with 10, 20, 30, and 50 % missing data. Findings show XGB and MLP outperform generative models. IterativeImputer results are comparable to mean and median, but not recommended for large datasets due to increased complexity and execution time. The code used is publicly available on GitHub (github.com/markushaug/acr-25).
- Abstract(参考訳): この研究は、2つの不均衡な公開データセット(KDDCUP99とCredit Card Fraud 2013)で機械学習モデルを実証的に評価する。
この方法は、80/20スプリット(列車/テスト)を使用して、データ準備、モデルトレーニング、評価を含む。
eXtreme Gradient Boosting (XGB), Multi Layer Perceptron (MLP), Generative Adversarial Network (GAN), Variational Autoencoder (VAE), Multiple-Objective Generative Adversarial Active Learning (MO-GAAL), and XGB and MLP together with Random-Over-Sampling (ROS) and Self-Paced-Ensemble (SPE)。
評価には5倍のクロスバリデーションと計算技術(平均、中央値、イテレーティブインプタ)があり、10, 20, 30, 50 % の欠落データがある。
XGB と MLP は生成モデルよりも優れていた。
IterativeImputerの結果は平均値と中央値に匹敵するが、複雑性と実行時間の増加のために大規模なデータセットには推奨されない。
使用されるコードはGitHubで公開されている(github.com/markushaug/acr-25)。
関連論文リスト
- CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - GHOST: Gaussian Hypothesis Open-Set Technique [10.426399605773083]
大規模認識手法の評価は通常、全体的な性能に重点を置いている。
オープンセット認識(OSR)における公平性に対処し,クラスごとのパフォーマンスが劇的に変化することを示す。
Zスコア正規化をロジットに適用し、モデルの期待から逸脱する特徴量の影響を軽減する。
論文 参考訳(メタデータ) (2025-02-05T16:56:14Z) - Deep Unlearn: Benchmarking Machine Unlearning [7.450700594277741]
機械学習(MU)は、訓練された機械学習モデルの学習可能なパラメータから、特定のデータポイントの影響を取り除くことを目的としている。
本稿では,様々なベンチマークデータセットおよびモデルを対象とした18種類の最先端MU手法について検討する。
論文 参考訳(メタデータ) (2024-10-02T06:41:58Z) - Distributed Collapsed Gibbs Sampler for Dirichlet Process Mixture Models
in Federated Learning [0.22499166814992444]
本稿では,DPMM (DisCGS) のための分散マルコフ連鎖モンテカルロ (MCMC) 推論手法を提案する。
我々のアプローチでは、崩壊したGibbsサンプルラーを使用し、独立マシンと異種マシンの分散データを扱うように設計されています。
例えば、100Kのデータポイントのデータセットでは、中央集権的なアルゴリズムは100回のイテレーションを完了するのに約12時間かかります。
論文 参考訳(メタデータ) (2023-12-18T13:16:18Z) - Learning to predict test effectiveness [1.4213973379473652]
この記事では、テストがクラスをカバーできる範囲を、Coverageabilityと呼ばれる新しいメトリクスで予測する機械学習モデルを提供する。
各クラスで自動生成されるテストスイートのサイズとカバレッジの観点から,テストの有効性を評価する数学的モデルを提供する。
論文 参考訳(メタデータ) (2022-08-20T07:26:59Z) - Machine Learning Models in Stock Market Prediction [0.0]
本論文は,8つの教師付き機械学習モデルを用いて,ニフティ50指数を予測することに焦点を当てている。
実験は、1996年4月22日から2021年4月16日までのインド株式市場ニフティ50指数の歴史的データに基づいている。
論文 参考訳(メタデータ) (2022-02-06T10:33:42Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Continual Learning with Fully Probabilistic Models [70.3497683558609]
機械学習の完全確率的(または生成的)モデルに基づく継続的学習のアプローチを提案する。
生成器と分類器の両方に対してガウス混合モデル(GMM)インスタンスを用いた擬似リハーサル手法を提案する。
我々は,GMRが,クラス増分学習問題に対して,非常に競合的な時間とメモリの複雑さで,最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-04-19T12:26:26Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - Fast, Accurate, and Simple Models for Tabular Data via Augmented
Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。
我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文 参考訳(メタデータ) (2020-06-25T09:57:47Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。