論文の概要: Efficient Malware Detection with Optimized Learning on High-Dimensional Features
- arxiv url: http://arxiv.org/abs/2506.17309v1
- Date: Wed, 18 Jun 2025 06:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.3334
- Title: Efficient Malware Detection with Optimized Learning on High-Dimensional Features
- Title(参考訳): 高次元特徴量に基づく最適学習による効率的なマルウェア検出
- Authors: Aditya Choudhary, Sarthak Pawar, Yashodhara Haribhakta,
- Abstract要約: 機械学習を用いたマルウェア検出にはバイナリファイルからの特徴抽出が必要である。
一般的な手法として、生の特徴抽出にLIEF、2381次元の特徴ベクトルを生成するためにEMBERベクトル化器がある。
本研究では,2つの次元還元手法を適用し,これらの課題に対処する。
- 参考スコア(独自算出の注目度): 1.3654846342364308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Malware detection using machine learning requires feature extraction from binary files, as models cannot process raw binaries directly. A common approach involves using LIEF for raw feature extraction and the EMBER vectorizer to generate 2381-dimensional feature vectors. However, the high dimensionality of these features introduces significant computational challenges. This study addresses these challenges by applying two dimensionality reduction techniques: XGBoost-based feature selection and Principal Component Analysis (PCA). We evaluate three reduced feature dimensions (128, 256, and 384), which correspond to approximately 5.4%, 10.8%, and 16.1% of the original 2381 features, across four models-XGBoost, LightGBM, Extra Trees, and Random Forest-using a unified training, validation, and testing split formed from the EMBER-2018, ERMDS, and BODMAS datasets. This approach ensures generalization and avoids dataset bias. Experimental results show that LightGBM trained on the 384-dimensional feature set after XGBoost feature selection achieves the highest accuracy of 97.52% on the unified dataset, providing an optimal balance between computational efficiency and detection performance. The best model, trained in 61 minutes using 30 GB of RAM and 19.5 GB of disk space, generalizes effectively to completely unseen datasets, maintaining 95.31% accuracy on TRITIUM and 93.98% accuracy on INFERNO. These findings present a scalable, compute-efficient approach for malware detection without compromising accuracy.
- Abstract(参考訳): 機械学習を用いたマルウェア検出には、モデルが生のバイナリを直接処理できないため、バイナリファイルから特徴抽出が必要である。
一般的な手法として、生の特徴抽出にLIEF、2381次元の特徴ベクトルを生成するためにEMBERベクトル化器がある。
しかし、これらの特徴の高次元性は重要な計算課題をもたらす。
本研究では,XGBoostに基づく特徴選択と主成分分析 (PCA) という2つの次元削減手法を適用し,これらの課題に対処する。
我々は,XGBoost,LightGBM,Extra Trees,Random Forestの4つのモデルで,EMBER-2018,ERMDS,BODMASデータセットから作成した統合トレーニング,検証,テスト分割を用いて,2381機能の約5.4%,10.8%,16.1%に相当する3つの特徴次元(128,256,384)を評価した。
このアプローチは一般化を保証し、データセットバイアスを回避する。
実験結果から,XGBoost特徴選択後の384次元特徴量に基づいてトレーニングしたLightGBMは,統合データセット上で97.52%の精度を達成し,計算効率と検出性能の最適バランスが得られた。
最高のモデルは、30GBのRAMと19.5GBのディスクスペースを使用して61分でトレーニングされ、完全に見えないデータセットに効果的に一般化し、トリチウムでは95.31%、INFERNOでは93.98%の精度を維持している。
これらの結果は、精度を損なうことなく、スケーラブルで計算効率のよいマルウェア検出手法を示す。
関連論文リスト
- LPASS: Linear Probes as Stepping Stones for vulnerability detection using compressed LLMs [0.0]
本稿では,Linear Probesを用いて圧縮された大言語モデルの性能を推定する方法を示す。
また, レイヤプルーニング圧縮を適用する際に, カットオフ点の設定に適合することを示す。
我々のアプローチは、$LPASS$と呼ばれ、480kのC/C++サンプル上で、MITREのTop 25の最も危険な脆弱性を検出するためにBERTとGemmaに適用される。
論文 参考訳(メタデータ) (2025-05-30T10:37:14Z) - Malware Classification from Memory Dumps Using Machine Learning, Transformers, and Large Language Models [1.038088229789127]
本研究では,異なる特徴セットとデータ構成を用いたマルウェア分類タスクにおける各種分類モデルの性能について検討する。
XGBはTop 45 Featuresで87.42%の精度を達成し、他の全てのモデルを上回った。
ディープラーニングモデルはパフォーマンスが悪く、RNNは66.71%の精度でトランスフォーマーは71.59%に達した。
論文 参考訳(メタデータ) (2025-03-04T00:24:21Z) - Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。
SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:59:47Z) - The object detection model uses combined extraction with KNN and RF classification [0.0]
本研究は,GLCMとLCPを特徴ベクトルとして組み合わせた新しい手法と,分類のためのVEによる物体検出の分野に寄与する。
システムテストでは4,437枚の2D画像のデータセットを使用し、KNNの精度は92.7%、F1スコアは92.5%、RF性能は低かった。
論文 参考訳(メタデータ) (2024-05-09T05:21:42Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection [48.66703222700795]
我々は、ラベルの取得に最も有用なポイントクラウドを特定するために、新しいカーネル戦略を利用する。
1段目(SECOND)と2段目(SECOND)の両方に対応するため、アノテーションに選択した境界ボックスの総数と検出性能のトレードオフをよく組み込んだ分類エントロピー接点を組み込んだ。
その結果,ボックスレベルのアノテーションのコストは約44%,計算時間は26%削減された。
論文 参考訳(メタデータ) (2023-07-16T04:27:03Z) - FDINet: Protecting against DNN Model Extraction via Feature Distortion Index [25.69643512837956]
FDINETは、ディープニューラルネットワーク(DNN)モデルの特徴分布を活用する新しい防御メカニズムである。
FDI類似性を利用して、分散抽出攻撃から衝突する敵を識別する。
FDINETは、91%を超える精度で衝突する敵を識別する能力を示している。
論文 参考訳(メタデータ) (2023-06-20T07:14:37Z) - EAutoDet: Efficient Architecture Search for Object Detection [110.99532343155073]
EAutoDetフレームワークは、1.4GPU日でオブジェクト検出のための実用的なバックボーンとFPNアーキテクチャを検出できる。
本稿では,一方のエッジ上での候補演算の重みを共有し,それらを一つの畳み込みに集約することでカーネル再利用手法を提案する。
特に、発見されたアーキテクチャは最先端のオブジェクト検出NAS法を超越し、120 FPSで40.1 mAP、49.2 mAP、41.3 FPSをCOCOテストデブセットで達成している。
論文 参考訳(メタデータ) (2022-03-21T05:56:12Z) - DrNAS: Dirichlet Neural Architecture Search [88.56953713817545]
ディリクレ分布をモデルとした連続緩和型混合重みをランダム変数として扱う。
最近開発されたパスワイズ微分により、ディリクレパラメータは勾配に基づく一般化で容易に最適化できる。
微分可能なNASの大きなメモリ消費を軽減するために, 単純かつ効果的な進行学習方式を提案する。
論文 参考訳(メタデータ) (2020-06-18T08:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。