論文の概要: Virus-MNIST: A Benchmark Malware Dataset
- arxiv url: http://arxiv.org/abs/2103.00602v1
- Date: Sun, 28 Feb 2021 19:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 05:25:54.522282
- Title: Virus-MNIST: A Benchmark Malware Dataset
- Title(参考訳): Virus-MNIST:ベンチマークマルウェアデータセット
- Authors: David Noever, Samantha E. Miller Noever
- Abstract要約: このノートは、10の実行可能なコード品種と約50,000のウイルス例からなる画像分類データセットを示す。
悪意のあるクラスには、9種類のコンピュータウイルスと1つの良性セットが含まれる。
マルウェアに対する9つのウイルスファミリーの指定は、クラスラベルの教師なし学習に由来する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The short note presents an image classification dataset consisting of 10
executable code varieties and approximately 50,000 virus examples. The
malicious classes include 9 families of computer viruses and one benign set.
The image formatting for the first 1024 bytes of the Portable Executable (PE)
mirrors the familiar MNIST handwriting dataset, such that most of the
previously explored algorithmic methods can transfer with minor modifications.
The designation of 9 virus families for malware derives from unsupervised
learning of class labels; we discover the families with KMeans clustering that
excludes the non-malicious examples. As a benchmark using deep learning methods
(MobileNetV2), we find an overall 80% accuracy for virus identification by
families when beneware is included. We also find that once a positive malware
detection occurs (by signature or heuristics), the projection of the first 1024
bytes into a thumbnail image can classify with 87% accuracy the type of virus.
The work generalizes what other malware investigators have demonstrated as
promising convolutional neural networks originally developed to solve image
problems but applied to a new abstract domain in pixel bytes from executable
files. The dataset is available on Kaggle and Github.
- Abstract(参考訳): 以下に示すのは、10の実行可能なコード変種と約50,000のウイルス例からなる画像分類データセットである。
悪意のあるクラスには、9種類のコンピュータウイルスと1つの良性セットが含まれる。
ポータブル実行テーブル(PE)の最初の1024バイトの画像フォーマットは、慣れ親しんだMNIST手書きデータセットを反映しており、以前に検討されたアルゴリズムメソッドのほとんどは小さな変更で転送することができる。
マルウェアに対する9つのウイルスファミリーの指定は、クラスラベルの監視されていない学習に由来する。
深層学習法(mobilenetv2)を用いたベンチマークでは,家族間でのウイルス識別の80%の精度が得られた。
また,(シグネチャやヒューリスティックスによって)正のマルウェア検出が行われると,最初の1024バイトのサムネイル画像への投影がウイルスの87%の精度で分類できることが分かった。
この研究は、他のマルウェア研究者が画像問題を解決するために開発された有望な畳み込みニューラルネットワークとして証明したものを一般化し、実行可能なファイルからピクセルバイトの新しい抽象ドメインに適用した。
データセットはKaggleとGithubで入手できる。
関連論文リスト
- Deep Multi-Task Learning for Malware Image Classification [7.136205674624813]
本稿では,高精度かつ高速なマルウェア検出のためのマルウェア画像分類のための新しいマルチタスク学習フレームワークを提案する。
我々は、マルウェアの特徴からビットマップ(BMP)とPNG(PNG)画像を生成し、ディープラーニング分類器にフィードする。
我々の最先端のマルチタスク学習アプローチは、およそ10万の良質で悪意のあるPE、APK、Mach-o、ELFのサンプルを収集した新しいデータセットでテストされています。
論文 参考訳(メタデータ) (2024-05-09T17:02:06Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - MalDICT: Benchmark Datasets on Malware Behaviors, Platforms, Exploitation, and Packers [44.700094741798445]
マルウェア分類に関する既存の研究は、悪意のあるファイルと良性のあるファイルの区別と、家族によるマルウェアの分類という2つのタスクにのみ焦点をあてている。
我々は、マルウェアが提示する行動の分類、マルウェアが実行しているプラットフォーム、マルウェアが悪用する脆弱性、マルウェアが詰め込まれているパッカーの4つのタスクを特定した。
ClarAVyを使ってタグ付けされ、合計で550万近い悪意のあるファイルで構成されています。
論文 参考訳(メタデータ) (2023-10-18T04:36:26Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - On deceiving malware classification with section injection [0.0]
マルウェア分類システムを騙すために,実行ファイルの修正方法を検討する。
この研究の主な貢献は、マルウェアファイルにランダムにバイトを注入し、攻撃と防御の両方に使用する手法である。
論文 参考訳(メタデータ) (2022-08-12T02:43:17Z) - LLC: Accurate, Multi-purpose Learnt Low-dimensional Binary Codes [55.32790803903619]
本稿では,クラスだけでなくインスタンスの低次元バイナリコード(LLC)を学習するための新しい手法を提案する。
アノテーション付き属性やラベルメタデータなど,副作用は一切不要です。
学習したコードは、クラスに対して直感的な分類法を発見することによって、データの中で本質的に重要な特徴をキャプチャすることを示した。
論文 参考訳(メタデータ) (2021-06-02T21:57:52Z) - Being Single Has Benefits. Instance Poisoning to Deceive Malware
Classifiers [47.828297621738265]
攻撃者は、マルウェア分類器を訓練するために使用されるデータセットをターゲットとした、高度で効率的な中毒攻撃を、どのように起動できるかを示す。
マルウェア検出領域における他の中毒攻撃とは対照的に、我々の攻撃はマルウェアファミリーではなく、移植されたトリガーを含む特定のマルウェアインスタンスに焦点を当てている。
我々は、この新たに発見された深刻な脅威に対する将来の高度な防御に役立つ包括的検出手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T15:27:44Z) - Classifying Malware Images with Convolutional Neural Network Models [2.363388546004777]
本稿では,静的マルウェア分類にいくつかの畳み込みニューラルネットワーク(CNN)モデルを用いる。
インセプションV3モデルは99.24%の精度を達成しており、現在の最先端システムによって達成される98.52%の精度よりも優れている。
論文 参考訳(メタデータ) (2020-10-30T07:39:30Z) - DAEMON: Dataset-Agnostic Explainable Malware Classification Using
Multi-Stage Feature Mining [3.04585143845864]
マルウェア分類は、新しい悪意のある亜種が属する家族を決定するタスクである。
DAEMONは,データセットに依存しない新しいマルウェア分類ツールである。
論文 参考訳(メタデータ) (2020-08-04T21:57:30Z) - Detecting malicious PDF using CNN [46.86114958340962]
悪意のあるPDFファイルは、コンピュータセキュリティに対する最大の脅威の1つだ。
本稿では,ファイルのバイトレベルにおける畳み込みニューラルネットワーク(CNN)のアンサンブルを用いた新しいアルゴリズムを提案する。
オンラインでダウンロード可能な90000ファイルのデータセットを用いて,本手法はPDFマルウェアの高検出率(94%)を維持していることを示す。
論文 参考訳(メタデータ) (2020-07-24T18:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。