論文の概要: New Datasets for Dynamic Malware Classification
- arxiv url: http://arxiv.org/abs/2111.15205v1
- Date: Tue, 30 Nov 2021 08:31:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 00:51:11.472461
- Title: New Datasets for Dynamic Malware Classification
- Title(参考訳): 動的マルウェア分類のための新しいデータセット
- Authors: Berkant D\"uzg\"un, Aykut \c{C}ay{\i}r, Ferhat Demirk{\i}ran, Ceyda
Nur Kayha, Buket Gen\c{c}ayd{\i}n and Hasan Da\u{g}
- Abstract要約: 悪意のあるソフトウェアであるVrusSamplesとVrusShareの2つの新しい、更新されたデータセットを紹介します。
本稿では、これらの2つのデータセットのバランスとバランスの取れていないバージョンにおけるマルチクラスのマルウェア分類性能について分析する。
その結果,不均衡なVirusSampleデータセットでは,Support Vector Machineが94%のスコアを達成していることがわかった。
最も一般的な勾配向上ベースのモデルのひとつであるXGBoostは、VirusShareデータセットの両バージョンにおいて、90%と80%のスコアを達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, malware and malware incidents are increasing daily, even with
various anti-viruses systems and malware detection or classification
methodologies. Many static, dynamic, and hybrid techniques have been presented
to detect malware and classify them into malware families. Dynamic and hybrid
malware classification methods have advantages over static malware
classification methods by being highly efficient. Since it is difficult to mask
malware behavior while executing than its underlying code in static malware
classification, machine learning techniques have been the main focus of the
security experts to detect malware and determine their families dynamically.
The rapid increase of malware also brings the necessity of recent and updated
datasets of malicious software. We introduce two new, updated datasets in this
work: One with 9,795 samples obtained and compiled from VirusSamples and the
one with 14,616 samples from VirusShare. This paper also analyzes multi-class
malware classification performance of the balanced and imbalanced version of
these two datasets by using Histogram-based gradient boosting, Random Forest,
Support Vector Machine, and XGBoost models with API call-based dynamic malware
classification. Results show that Support Vector Machine, achieves the highest
score of 94% in the imbalanced VirusSample dataset, whereas the same model has
91% accuracy in the balanced VirusSample dataset. While XGBoost, one of the
most common gradient boosting-based models, achieves the highest score of 90%
and 80%.in both versions of the VirusShare dataset. This paper also presents
the baseline results of VirusShare and VirusSample datasets by using the four
most widely known machine learning techniques in dynamic malware classification
literature. We believe that these two datasets and baseline results enable
researchers in this field to test and validate their methods and approaches.
- Abstract(参考訳): 現在では、マルウェアやマルウェアのインシデントが日々増えており、様々なアンチウイルスシステムやマルウェアの検出や分類方法がある。
多くの静的、動的、ハイブリッドなテクニックが提示され、マルウェアを検出し、それらをマルウェアファミリーに分類している。
動的およびハイブリッドなマルウェア分類法は、静的なマルウェア分類法よりも効率的である。
静的なマルウェア分類において、基盤となるコードよりもマルウェアの挙動を隠蔽することは困難であるため、機械学習技術は、マルウェアを検出し、その家族を動的に判断するセキュリティ専門家の焦点となっている。
マルウェアの急速な増加は、最近および更新された悪意あるソフトウェアのデータセットの必要性も引き起こす。
ひとつは、VirusSamplesから取得、コンパイルされた9,795個のサンプルと、もうひとつはVirusShareから得られた14,616個のサンプルである。
また,Histogramベースの勾配ブースティング,ランダムフォレスト,サポートベクターマシン,XGBoostモデルを用いて,これらの2つのデータセットのバランスとバランスの取れていないバージョンにおけるマルチクラスマルウェア分類性能を解析した。
その結果、Support Vector Machineはバランスの取れていないVirusSampleデータセットで94%のスコアを獲得し、同じモデルはバランスのとれたVirusSampleデータセットで91%の精度を持つことがわかった。
最も一般的なグラデーションベースのモデルのひとつであるXGBoostは、90%と80%のスコアを達成している。
VirusShareデータセットの両バージョンで。
本稿では、動的マルウェア分類文献において、最も広く知られている4つの機械学習技術を用いて、ウイルスシェアとウイルスサンプルデータセットのベースライン結果を示す。
この2つのデータセットとベースラインの結果により、この分野の研究者は、それぞれの手法やアプローチをテストし、検証することができます。
関連論文リスト
- Online Clustering of Known and Emerging Malware Families [1.2289361708127875]
マルウェアのサンプルを悪質な特徴に応じて分類することが不可欠である。
オンラインクラスタリングアルゴリズムは、マルウェアの振る舞いを理解し、新たな脅威に対する迅速な応答を生み出すのに役立ちます。
本稿では,悪意のあるサンプルをオンラインクラスタリングしてマルウェア群に分類する,新しい機械学習モデルを提案する。
論文 参考訳(メタデータ) (2024-05-06T09:20:17Z) - MalDICT: Benchmark Datasets on Malware Behaviors, Platforms, Exploitation, and Packers [44.700094741798445]
マルウェア分類に関する既存の研究は、悪意のあるファイルと良性のあるファイルの区別と、家族によるマルウェアの分類という2つのタスクにのみ焦点をあてている。
我々は、マルウェアが提示する行動の分類、マルウェアが実行しているプラットフォーム、マルウェアが悪用する脆弱性、マルウェアが詰め込まれているパッカーの4つのタスクを特定した。
ClarAVyを使ってタグ付けされ、合計で550万近い悪意のあるファイルで構成されています。
論文 参考訳(メタデータ) (2023-10-18T04:36:26Z) - EMBERSim: A Large-Scale Databank for Boosting Similarity Search in
Malware Analysis [48.5877840394508]
近年,定量化によるマルウェア検出から機械学習への移行が進んでいる。
本稿では、EMBERから始まるバイナリファイルの類似性研究の領域における欠陥に対処することを提案する。
我々は、EMBERに類似情報とマルウェアのクラスタグを付与し、類似性空間のさらなる研究を可能にする。
論文 参考訳(メタデータ) (2023-10-03T06:58:45Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - Behavioural Reports of Multi-Stage Malware [3.64414368529873]
このデータセットは、Windows 10仮想マシンで実行される数千のマルウェアサンプルに対するAPI呼び出しシーケンスを提供する。
このデータセットの作成と拡張のチュートリアルと、このデータセットを使用してマルウェアを分類する方法を示すベンチマークが提供されている。
論文 参考訳(メタデータ) (2023-01-30T11:51:02Z) - Using Static and Dynamic Malware features to perform Malware Ascription [0.0]
我々は、悪意のある実行可能ファイルの静的および動的機能を用いて、その家族に基づいてマルウェアを分類する。
Cuckoo Sandboxと機械学習を活用して、この研究を前進させます。
論文 参考訳(メタデータ) (2021-12-05T18:01:09Z) - Being Single Has Benefits. Instance Poisoning to Deceive Malware
Classifiers [47.828297621738265]
攻撃者は、マルウェア分類器を訓練するために使用されるデータセットをターゲットとした、高度で効率的な中毒攻撃を、どのように起動できるかを示す。
マルウェア検出領域における他の中毒攻撃とは対照的に、我々の攻撃はマルウェアファミリーではなく、移植されたトリガーを含む特定のマルウェアインスタンスに焦点を当てている。
我々は、この新たに発見された深刻な脅威に対する将来の高度な防御に役立つ包括的検出手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T15:27:44Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z) - DAEMON: Dataset-Agnostic Explainable Malware Classification Using
Multi-Stage Feature Mining [3.04585143845864]
マルウェア分類は、新しい悪意のある亜種が属する家族を決定するタスクである。
DAEMONは,データセットに依存しない新しいマルウェア分類ツールである。
論文 参考訳(メタデータ) (2020-08-04T21:57:30Z) - Maat: Automatically Analyzing VirusTotal for Accurate Labeling and
Effective Malware Detection [71.84087757644708]
マルウェア分析と検出の研究コミュニティは、約60台のスキャナーのスキャン結果に基づいてAndroidアプリをラベル付けするために、オンラインプラットフォームVirusTotalに依存している。
VirusTotalから取得したスキャン結果を最もよく解釈する方法の基準はありません。
機械学習(ML)ベースのラベリングスキームを自動生成することで,標準化と持続可能性というこれらの問題に対処する手法であるMaatを実装した。
論文 参考訳(メタデータ) (2020-07-01T14:15:03Z) - MDEA: Malware Detection with Evolutionary Adversarial Learning [16.8615211682877]
MDEA(Adversarial Malware Detection)モデルであるMDEAは、進化的最適化を使用して攻撃サンプルを作成し、ネットワークを回避攻撃に対して堅牢にする。
進化したマルウェアサンプルでモデルを再トレーニングすることで、その性能は大幅に改善される。
論文 参考訳(メタデータ) (2020-02-09T09:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。