論文の概要: Evaluating Ensemble and Deep Learning Models for Static Malware Detection with Dimensionality Reduction Using the EMBER Dataset
- arxiv url: http://arxiv.org/abs/2507.16952v2
- Date: Thu, 24 Jul 2025 22:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 12:12:30.213146
- Title: Evaluating Ensemble and Deep Learning Models for Static Malware Detection with Dimensionality Reduction Using the EMBER Dataset
- Title(参考訳): EMBERデータセットを用いた次元削減による静的マルウェア検出のためのアンサンブルとディープラーニングモデルの評価
- Authors: Md Min-Ha-Zul Abedin, Tazqia Mehrub,
- Abstract要約: 本研究では,EMBERデータセットを用いた静的マルウェア検出における機械学習アルゴリズムの有効性について検討した。
LightGBM, XGBoost, CatBoost, Random Forest, Extra Trees, HistGradientBoosting, k-Nearest Neighbors (KNN), TabNetの8つの分類モデルを評価した。
モデルは精度、精度、リコール、F1スコア、AUCに基づいて評価され、予測性能とロバスト性の両方を調べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the effectiveness of several machine learning algorithms for static malware detection using the EMBER dataset, which contains feature representations of Portable Executable (PE) files. We evaluate eight classification models: LightGBM, XGBoost, CatBoost, Random Forest, Extra Trees, HistGradientBoosting, k-Nearest Neighbors (KNN), and TabNet, under three preprocessing settings: original feature space, Principal Component Analysis (PCA), and Linear Discriminant Analysis (LDA). The models are assessed on accuracy, precision, recall, F1 score, and AUC to examine both predictive performance and robustness. Ensemble methods, especially LightGBM and XGBoost, show the best overall performance across all configurations, with minimal sensitivity to PCA and consistent generalization. LDA improves KNN performance but significantly reduces accuracy for boosting models. TabNet, while promising in theory, underperformed under feature reduction, likely due to architectural sensitivity to input structure. The analysis is supported by detailed exploratory data analysis (EDA), including mutual information ranking, PCA or t-SNE visualizations, and outlier detection using Isolation Forest and Local Outlier Factor (LOF), which confirm the discriminatory capacity of key features in the EMBER dataset. The results suggest that boosting models remain the most reliable choice for high-dimensional static malware detection, and that dimensionality reduction should be applied selectively based on model type. This work provides a benchmark for comparing classification models and preprocessing strategies in malware detection tasks and contributes insights that can guide future system development and real-world deployment.
- Abstract(参考訳): 本研究では, Portable Executable (PE) ファイルの特徴表現を含むEMBERデータセットを用いて, 静的マルウェア検出のための機械学習アルゴリズムの有効性を検討した。
光GBM, XGBoost, CatBoost, Random Forest, Extra Trees, HistGradientBoosting, k-Nearest Neighbors (KNN), TabNetの8種類の分類モデルを, 原特徴空間, 主成分分析 (PCA), 線形識別分析 (LDA) の3つの前処理条件下で評価した。
モデルは精度、精度、リコール、F1スコア、AUCに基づいて評価され、予測性能とロバスト性の両方を調べる。
Ensembleメソッド、特にLightGBMとXGBoostは、PCAに対する感度が最小限で、全構成で最高の全体的なパフォーマンスを示し、一貫した一般化を実現している。
LDAはKNNの性能を向上するが、モデルの強化の精度は大幅に低下する。
TabNetは理論上は有望だが、おそらく入力構造に対するアーキテクチャ上の感受性のため、機能低下の下では性能が低かった。
この分析は、相互情報ランキング、PCAまたはt-SNE可視化を含む詳細な探索データ分析(EDA)と、EMBERデータセットにおける重要な特徴の識別能力を確認するために、分離森林と局所外層因子(LOF)を用いた外層検出によって支援される。
その結果, 高次元静的マルウェア検出において, ブーピングモデルが最も信頼性の高い選択であり, モデルタイプに基づいて次元削減を選択的に適用すべきであることが示唆された。
この研究は、マルウェア検出タスクにおける分類モデルと前処理戦略を比較するためのベンチマークを提供し、将来のシステム開発と実世界の展開を導くための洞察を提供する。
関連論文リスト
- Zero-Shot Image Anomaly Detection Using Generative Foundation Models [2.241618130319058]
本研究は,意味的異常検出のための基礎的ツールとしてスコアベース生成モデルの利用について検討する。
スタインスコアの誤差を解析することにより,各ターゲットデータセットの再学習を必要とせず,異常サンプルを識別する新しい手法を提案する。
このアプローチは最先端よりも改善され、ひとつのデータセット — CelebA -- 上で単一のモデルをトレーニングすることに依存しています。
論文 参考訳(メタデータ) (2025-07-30T13:56:36Z) - Knowledge Regularized Negative Feature Tuning of Vision-Language Models for Out-of-Distribution Detection [54.433899174017185]
信頼性の高い機械学習モデルを構築するには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
我々はKR-NFT(Knowledge Regularized Negative Feature Tuning)と呼ばれる新しい手法を提案する。
NFTは、事前訓練されたテキスト特徴に分布認識変換を適用し、正および負の特徴を異なる空間に効果的に分離する。
ImageNetデータセットから数発のサンプルをトレーニングすると、KR-NFTはID分類精度とOOD検出を改善するだけでなく、FPR95を5.44%削減する。
論文 参考訳(メタデータ) (2025-07-26T07:44:04Z) - Leveraging VAE-Derived Latent Spaces for Enhanced Malware Detection with Machine Learning Classifiers [0.0]
本稿では,決定木,ナイーブベイズ,ライトGBM,ロジスティック回帰,ランダムフォレストという5つの機械学習分類器の性能を評価する。
異なるランダムシードで異なるトレーニングテストスプリットで実施された実験の結果、すべてのモデルがマルウェアの検出において良好に機能していることが判明した。
論文 参考訳(メタデータ) (2025-03-24T14:44:55Z) - Dynamic Classification: Leveraging Self-Supervised Classification to Enhance Prediction Performance [2.2736104746143355]
本稿では,ゼロミス検出と最小偽陽性を実現することを目的とした,革新的な動的分類アルゴリズムを提案する。
このアルゴリズムはデータを自己教師付き学習生成方式で分割し、モデルがトレーニングセットから学習できるようにする。
実験結果から,データ分割誤差が最小限であれば,アルゴリズムは例外的な性能を達成できることがわかった。
論文 参考訳(メタデータ) (2025-02-26T07:11:12Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - Efficient Network Traffic Feature Sets for IoT Intrusion Detection [0.0]
この研究は、複数のIoTネットワークデータセットで、Information Gain、Chi-Squared Test、Recursive Feature Elimination、Mean Absolute Deviation、Dispersion Ratioといった、さまざまな機能選択メソッドの組み合わせによって提供される機能セットを評価します。
より小さな特徴セットがMLモデルの分類性能とトレーニング時間の両方に与える影響を比較し,IoT侵入検出の計算効率を高めることを目的とした。
論文 参考訳(メタデータ) (2024-06-12T09:51:29Z) - Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。
本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Incremental Outlier Detection Modelling Using Streaming Analytics in Finance & Health Care [0.0]
リアルタイムデータの時代において、従来の手法はストリーミング環境の動的な性質に追従するのに苦労することが多い。
本稿では,モデルを一度構築し,リアルタイム環境下で評価するハイブリッドフレームワークを提案する。
我々は、一級サポートベクターマシン(OCSVM)、孤立林適応型スライドウィンドウアプローチ(IForest ASD)、正確な嵐(ES)、角度ベース外乱検出(ABOD)、局所外乱係数(LOF)、Kitsunesオンラインアルゴリズム(KitNet)、K-nearest近隣の8種類の最先端外乱検出モデルを採用した。
論文 参考訳(メタデータ) (2023-05-17T02:30:28Z) - Energy-based Out-of-Distribution Detection for Graph Neural Networks [76.0242218180483]
我々は,GNNSafeと呼ばれるグラフ上での学習のための,シンプルで強力で効率的なOOD検出モデルを提案する。
GNNSafeは、最先端技術に対するAUROCの改善を最大17.0%で達成しており、そのような未開発領域では単純だが強力なベースラインとして機能する可能性がある。
論文 参考訳(メタデータ) (2023-02-06T16:38:43Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。