論文の概要: Malware Classification from Memory Dumps Using Machine Learning, Transformers, and Large Language Models
- arxiv url: http://arxiv.org/abs/2503.02144v1
- Date: Tue, 04 Mar 2025 00:24:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:40.000935
- Title: Malware Classification from Memory Dumps Using Machine Learning, Transformers, and Large Language Models
- Title(参考訳): 機械学習・トランスフォーマー・大規模言語モデルを用いたメモリダンプからのマルウェア分類
- Authors: Areej Dweib, Montaser Tanina, Shehab Alawi, Mohammad Dyab, Huthaifa I. Ashqar,
- Abstract要約: 本研究では,異なる特徴セットとデータ構成を用いたマルウェア分類タスクにおける各種分類モデルの性能について検討する。
XGBはTop 45 Featuresで87.42%の精度を達成し、他の全てのモデルを上回った。
ディープラーニングモデルはパフォーマンスが悪く、RNNは66.71%の精度でトランスフォーマーは71.59%に達した。
- 参考スコア(独自算出の注目度): 1.038088229789127
- License:
- Abstract: This study investigates the performance of various classification models for a malware classification task using different feature sets and data configurations. Six models-Logistic Regression, K-Nearest Neighbors (KNN), Support Vector Machines (SVM), Decision Trees, Random Forest (RF), and Extreme Gradient Boosting (XGB)-were evaluated alongside two deep learning models, Recurrent Neural Networks (RNN) and Transformers, as well as the Gemini zero-shot and few-shot learning methods. Four feature sets were tested including All Features, Literature Review Features, the Top 45 Features from RF, and Down-Sampled with Top 45 Features. XGB achieved the highest accuracy of 87.42% using the Top 45 Features, outperforming all other models. RF followed closely with 87.23% accuracy on the same feature set. In contrast, deep learning models underperformed, with RNN achieving 66.71% accuracy and Transformers reaching 71.59%. Down-sampling reduced performance across all models, with XGB dropping to 81.31%. Gemini zero-shot and few-shot learning approaches showed the lowest performance, with accuracies of 40.65% and 48.65%, respectively. The results highlight the importance of feature selection in improving model performance while reducing computational complexity. Traditional models like XGB and RF demonstrated superior performance, while deep learning and few-shot methods struggled to match their accuracy. This study underscores the effectiveness of traditional machine learning models for structured datasets and provides a foundation for future research into hybrid approaches and larger datasets.
- Abstract(参考訳): 本研究では,異なる特徴セットとデータ構成を用いたマルウェア分類タスクにおける各種分類モデルの性能について検討する。
6つのモデル-ロジスティック回帰、K-Nearest Neighbors (KNN), Support Vector Machines (SVM), Decision Trees, Random Forest (RF), and Extreme Gradient Boosting (XGB)-は、2つのディープラーニングモデル、Recurrent Neural Networks (RNN)とTransformers、およびGeminiゼロショットと数ショットの学習方法とともに評価された。
All Features, Literature Review Features, Top 45 Features from RF, Down-Sampled with Top 45 Featuresという4つの機能セットがテストされた。
XGBはTop 45 Featuresで87.42%の精度を達成し、他の全てのモデルを上回った。
RFは、同じ特徴セットで87.23%の精度で追随した。
対照的に、ディープラーニングモデルはパフォーマンスが悪く、RNNは66.71%の精度でトランスフォーマーは71.59%に達した。
ダウンサンプリングにより全モデルのパフォーマンスが低下し、XGBは81.31%に低下した。
ジェミニゼロショットと少数ショットの学習アプローチは、それぞれ40.65%と48.65%という低い性能を示した。
その結果,計算複雑性を低減しつつ,モデルの性能向上における特徴選択の重要性が浮き彫りになった。
XGBやRFといった従来のモデルは優れた性能を示し、深層学習や数発の手法は精度に合わない。
本研究は、構造化データセットに対する従来の機械学習モデルの有効性を強調し、ハイブリッドアプローチと大規模データセットに関する将来の研究の基盤を提供する。
関連論文リスト
- Classification of Operational Records in Aviation Using Deep Learning Approaches [0.0]
本研究では,商業・軍事・民間の分類課題におけるDP(深層学習)の4つのモデルの性能評価を行った。
モデルのうち、BLSTMは72%の最高精度を達成し、安定性とバランスの取れた分類において優れた性能を示した。
CNNとsRNNは67%と69%の低い精度を示し、プライベートクラスでは大きな誤分類があった。
論文 参考訳(メタデータ) (2025-01-02T12:12:02Z) - Classifier Enhanced Deep Learning Model for Erythroblast Differentiation with Limited Data [0.08388591755871733]
病態と遺伝疾患の1%を含む血液疾患は、重大な診断上の課題を呈している。
本手法では,機械学習モデルの有効性を考慮した各種機械学習設定の評価を行う。
データが利用可能になった場合、提案されたソリューションは、小さくてユニークなデータセットの精度を高めるためのソリューションである。
論文 参考訳(メタデータ) (2024-11-23T15:51:15Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Stacking-Enhanced Bagging Ensemble Learning for Breast Cancer Classification with CNN [0.24578723416255752]
本稿では,乳がん分類のためのBaggingおよびスタックングアンサンブル学習手法に基づくCNN分類ネットワークを提案する。
このモデルは入力画像の高速かつ正確な分類を行うことができる。
二項分類(乳がんの有無)では、精度は98.84%に達し、5級分類では98.34%に達した。
論文 参考訳(メタデータ) (2024-07-15T09:44:43Z) - An Evaluation of Machine Learning Approaches for Early Diagnosis of
Autism Spectrum Disorder [0.0]
自閉症スペクトラム障害(Autistic Spectrum disorder、ASD)は、社会的相互作用、コミュニケーション、反復活動の困難を特徴とする神経疾患である。
本研究は,診断プロセスの強化と自動化を目的として,多様な機械学習手法を用いて重要なASD特性を同定する。
論文 参考訳(メタデータ) (2023-09-20T21:23:37Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - Exploration of Various Deep Learning Models for Increased Accuracy in
Automatic Polyp Detection [62.997667081978825]
本稿では,大腸内視鏡画像におけるポリプの検出精度が高いディープラーニングモデルとアルゴリズムについて検討する。
畳み込みニューラルネットワーク(CNN)を用いたディープラーニングの研究
論文 参考訳(メタデータ) (2022-03-04T04:03:41Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Utilizing Ensemble Learning for Performance and Power Modeling and
Improvement of Parallel Cancer Deep Learning CANDLE Benchmarks [0.0]
本稿では,アンサンブル学習を用いて,線形,非線形,木/木に基づく機械学習手法を組み合わせる。
2つの並列癌ディープラーニングCANDLEベンチマーク(NT3とP1B2)のために収集したデータセットを使用する。
P1B2は最大61.15%,P1B2は最大62.58%,P1B2は最大55.81%,NT3は最大52.60%の省エネルギーを実現した。
論文 参考訳(メタデータ) (2020-11-12T21:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。