論文の概要: EMBER2024 -- A Benchmark Dataset for Holistic Evaluation of Malware Classifiers
- arxiv url: http://arxiv.org/abs/2506.05074v1
- Date: Thu, 05 Jun 2025 14:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.753788
- Title: EMBER2024 -- A Benchmark Dataset for Holistic Evaluation of Malware Classifiers
- Title(参考訳): EMBER2024 -- マルウェア分類器の完全性評価のためのベンチマークデータセット
- Authors: Robert J. Joyce, Gideon Miller, Phil Roth, Richard Zak, Elliott Zaresky-Williams, Hyrum Anderson, Edward Raff, James Holt,
- Abstract要約: 本稿では,マルウェア分類器の全体的評価を可能にする新しいデータセットEMBER2024を提案する。
本データセットは,7つのマルウェア分類タスクにおける機械学習モデルのトレーニングと評価を支援する。
EMBER2024は、最初はアンチウイルス製品によって検出されなかった悪意のあるファイルのコレクションを含む最初のものである。
- 参考スコア(独自算出の注目度): 34.77788258445852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A lack of accessible data has historically restricted malware analysis research, and practitioners have relied heavily on datasets provided by industry sources to advance. Existing public datasets are limited by narrow scope - most include files targeting a single platform, have labels supporting just one type of malware classification task, and make no effort to capture the evasive files that make malware detection difficult in practice. We present EMBER2024, a new dataset that enables holistic evaluation of malware classifiers. Created in collaboration with the authors of EMBER2017 and EMBER2018, the EMBER2024 dataset includes hashes, metadata, feature vectors, and labels for more than 3.2 million files from six file formats. Our dataset supports the training and evaluation of machine learning models on seven malware classification tasks, including malware detection, malware family classification, and malware behavior identification. EMBER2024 is the first to include a collection of malicious files that initially went undetected by a set of antivirus products, creating a "challenge" set to assess classifier performance against evasive malware. This work also introduces EMBER feature version 3, with added support for several new feature types. We are releasing the EMBER2024 dataset to promote reproducibility and empower researchers in the pursuit of new malware research topics.
- Abstract(参考訳): アクセス可能なデータの欠如は、歴史的にマルウェア分析の研究を制限しており、実践者は先進的な業界ソースが提供するデータセットに大きく依存している。
既存の公開データセットは狭い範囲で制限されている - ほとんどが単一のプラットフォームをターゲットにしたファイルであり、ラベルは1つのタイプのマルウェア分類タスクのみをサポートし、実際にはマルウェア検出を難しくする回避ファイルのキャプチャには努力していない。
本稿では,マルウェア分類器の全体的評価を可能にする新しいデータセットEMBER2024を提案する。
EMBER2017とEMBER2018の著者と共同で開発されたEMBER2024データセットには、ハッシュ、メタデータ、フィーチャーベクター、ラベルが6つのファイルフォーマットから320万ファイル以上含まれている。
本データセットは,マルウェア検出,マルウェア家族分類,マルウェア行動識別を含む7つのマルウェア分類タスクにおける機械学習モデルのトレーニングと評価を支援する。
EMBER2024は、当初はアンチウイルス製品によって検出されなかった悪意のあるファイルのコレクションを初めて含むもので、回避マルウェアに対して分類器のパフォーマンスを評価するための「カオス」セットを作成している。
この作業では、EMBER機能バージョン3も導入され、いくつかの新機能タイプのサポートが追加されている。
EMBER2024データセットを公開し、再現性を促進し、新たなマルウェア研究トピックの追求に研究者に力を与える。
関連論文リスト
- Malware families discovery via Open-Set Recognition on Android manifest permissions [15.838751258859004]
マルウェアプログラムをそれぞれの家族に分類することは、サイバー脅威に対する効果的な防御を構築するために不可欠である。
本稿では,既知のマルウェアを分類する上で,新たなマルウェアを検出するマルウェア分類システムを提案する。
私たちのソリューションは、標準的な分類ワークフローでシームレスに使用できるので、非常に実用的であることが分かりました。
論文 参考訳(メタデータ) (2025-05-19T06:19:54Z) - Multi-label Classification for Android Malware Based on Active Learning [7.599125552187342]
本稿ではMLCDroidを提案する。MLCDroidは、事前に定義された悪意のある動作の存在を直接示すことができるマルチラベル分類手法である。
我々は,70のアルゴリズム組み合わせの結果を比較し,有効性(73.3%)を評価する。
これは、きめ細かい悪意のある振る舞いについて、より詳細な情報を提供することを目的とした、最初のマルチラベルAndroidマルウェア分類アプローチである。
論文 参考訳(メタデータ) (2024-10-09T01:09:24Z) - MalDICT: Benchmark Datasets on Malware Behaviors, Platforms, Exploitation, and Packers [44.700094741798445]
マルウェア分類に関する既存の研究は、悪意のあるファイルと良性のあるファイルの区別と、家族によるマルウェアの分類という2つのタスクにのみ焦点をあてている。
我々は、マルウェアが提示する行動の分類、マルウェアが実行しているプラットフォーム、マルウェアが悪用する脆弱性、マルウェアが詰め込まれているパッカーの4つのタスクを特定した。
ClarAVyを使ってタグ付けされ、合計で550万近い悪意のあるファイルで構成されています。
論文 参考訳(メタデータ) (2023-10-18T04:36:26Z) - EMBERSim: A Large-Scale Databank for Boosting Similarity Search in
Malware Analysis [48.5877840394508]
近年,定量化によるマルウェア検出から機械学習への移行が進んでいる。
本稿では、EMBERから始まるバイナリファイルの類似性研究の領域における欠陥に対処することを提案する。
我々は、EMBERに類似情報とマルウェアのクラスタグを付与し、類似性空間のさらなる研究を可能にする。
論文 参考訳(メタデータ) (2023-10-03T06:58:45Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - Behavioural Reports of Multi-Stage Malware [3.64414368529873]
このデータセットは、Windows 10仮想マシンで実行される数千のマルウェアサンプルに対するAPI呼び出しシーケンスを提供する。
このデータセットの作成と拡張のチュートリアルと、このデータセットを使用してマルウェアを分類する方法を示すベンチマークが提供されている。
論文 参考訳(メタデータ) (2023-01-30T11:51:02Z) - New Datasets for Dynamic Malware Classification [0.0]
悪意のあるソフトウェアであるVrusSamplesとVrusShareの2つの新しい、更新されたデータセットを紹介します。
本稿では、これらの2つのデータセットのバランスとバランスの取れていないバージョンにおけるマルチクラスのマルウェア分類性能について分析する。
その結果,不均衡なVirusSampleデータセットでは,Support Vector Machineが94%のスコアを達成していることがわかった。
最も一般的な勾配向上ベースのモデルのひとつであるXGBoostは、VirusShareデータセットの両バージョンにおいて、90%と80%のスコアを達成している。
論文 参考訳(メタデータ) (2021-11-30T08:31:16Z) - Being Single Has Benefits. Instance Poisoning to Deceive Malware
Classifiers [47.828297621738265]
攻撃者は、マルウェア分類器を訓練するために使用されるデータセットをターゲットとした、高度で効率的な中毒攻撃を、どのように起動できるかを示す。
マルウェア検出領域における他の中毒攻撃とは対照的に、我々の攻撃はマルウェアファミリーではなく、移植されたトリガーを含む特定のマルウェアインスタンスに焦点を当てている。
我々は、この新たに発見された深刻な脅威に対する将来の高度な防御に役立つ包括的検出手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T15:27:44Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。