論文の概要: MOTIF: A Large Malware Reference Dataset with Ground Truth Family Labels
- arxiv url: http://arxiv.org/abs/2111.15031v1
- Date: Mon, 29 Nov 2021 23:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 16:19:59.925112
- Title: MOTIF: A Large Malware Reference Dataset with Ground Truth Family Labels
- Title(参考訳): モチーフ: ground truth family labels による大規模マルウェア参照データセット
- Authors: Robert J. Joyce, Dev Amlani, Charles Nicholas, Edward Raff
- Abstract要約: 我々は、Malware Open-source Threat Intelligence Family (MOTIF)データセットを作成しました。
MOTIFには454家族の3,095のマルウェアサンプルが含まれており、最大かつ最も多様な公開マルウェアデータセットとなっている。
我々は、同じマルウェアファミリーを記述するために使われる異なる名前のエイリアスを提供し、既存のツールの精度を初めてベンチマークすることができる。
- 参考スコア(独自算出の注目度): 21.050311121388813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Malware family classification is a significant issue with public safety and
research implications that has been hindered by the high cost of expert labels.
The vast majority of corpora use noisy labeling approaches that obstruct
definitive quantification of results and study of deeper interactions. In order
to provide the data needed to advance further, we have created the Malware
Open-source Threat Intelligence Family (MOTIF) dataset. MOTIF contains 3,095
malware samples from 454 families, making it the largest and most diverse
public malware dataset with ground truth family labels to date, nearly 3x
larger than any prior expert-labeled corpus and 36x larger than the prior
Windows malware corpus. MOTIF also comes with a mapping from malware samples to
threat reports published by reputable industry sources, which both validates
the labels and opens new research opportunities in connecting opaque malware
samples to human-readable descriptions. This enables important evaluations that
are normally infeasible due to non-standardized reporting in industry. For
example, we provide aliases of the different names used to describe the same
malware family, allowing us to benchmark for the first time accuracy of
existing tools when names are obtained from differing sources. Evaluation
results obtained using the MOTIF dataset indicate that existing tasks have
significant room for improvement, with accuracy of antivirus majority voting
measured at only 62.10% and the well-known AVClass tool having just 46.78%
accuracy. Our findings indicate that malware family classification suffers a
type of labeling noise unlike that studied in most ML literature, due to the
large open set of classes that may not be known from the sample under
consideration
- Abstract(参考訳): マルウェアの家族分類は、専門家ラベルの高コストによって妨げられている公共の安全と研究上の意味において重要な問題である。
コーパスの大部分は、結果の正確な定量化と深い相互作用の研究を妨げるノイズラベリングアプローチを使用している。
さらに前進するために必要なデータを提供するため、Malware Open-source Threat Intelligence Family (MOTIF)データセットを作成しました。
MOTIFには454ファミリーの3,095のマルウェアサンプルが含まれており、これまでで最大の、最も多様な公的なマルウェアデータセットであり、これまでの専門家ラベル付きコーパスの約3倍、以前のWindowsマルウェアコーパスの約36倍である。
モチーフにはマルウェアのサンプルから脅威レポートへのマッピングも含まれており、ラベルを検証し、不透明なマルウェアのサンプルと人間の読みやすい記述をつなぐ新たな研究機会を開く。
これにより、業界における非標準化レポートのため、通常不可能な重要な評価が可能になる。
例えば、同一のマルウェアファミリーを記述するために使用される異なる名前のエイリアスを提供し、異なるソースから名前が得られた場合、既存のツールの最初の精度をベンチマークすることができる。
モチーフデータセットを用いた評価の結果、既存の課題は、62.10%の抗ウイルス多数決の精度と46.78%の精度で知られているavクラスツールによって、改善の余地があることが示された。
以上の結果から,多くのML文献で研究されているものとは異なり,マルウェアの分類にはラベル付けノイズが伴うことが示唆された。
関連論文リスト
- MalDICT: Benchmark Datasets on Malware Behaviors, Platforms, Exploitation, and Packers [44.700094741798445]
マルウェア分類に関する既存の研究は、悪意のあるファイルと良性のあるファイルの区別と、家族によるマルウェアの分類という2つのタスクにのみ焦点をあてている。
我々は、マルウェアが提示する行動の分類、マルウェアが実行しているプラットフォーム、マルウェアが悪用する脆弱性、マルウェアが詰め込まれているパッカーの4つのタスクを特定した。
ClarAVyを使ってタグ付けされ、合計で550万近い悪意のあるファイルで構成されています。
論文 参考訳(メタデータ) (2023-10-18T04:36:26Z) - EMBERSim: A Large-Scale Databank for Boosting Similarity Search in
Malware Analysis [48.5877840394508]
近年,定量化によるマルウェア検出から機械学習への移行が進んでいる。
本稿では、EMBERから始まるバイナリファイルの類似性研究の領域における欠陥に対処することを提案する。
我々は、EMBERに類似情報とマルウェアのクラスタグを付与し、類似性空間のさらなる研究を可能にする。
論文 参考訳(メタデータ) (2023-10-03T06:58:45Z) - CNS-Net: Conservative Novelty Synthesizing Network for Malware
Recognition in an Open-set Scenario [14.059646012441313]
マルウェアオープンセット認識(MOSR)という,既知の未知の未知のマルウェア群と未知の未知のマルウェア群の両方に対するマルウェア認識の課題について検討する。
本稿では,未知のマルウェア群を模倣するマルウェアインスタンスを保存的に合成する新しいモデルを提案する。
我々はまた、大規模なオープンセットマルウェアベンチマークデータセットの欠如を埋めるために、MAL-100という新しい大規模マルウェアデータセットを構築した。
論文 参考訳(メタデータ) (2023-05-02T07:31:42Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z) - Beyond the Hype: A Real-World Evaluation of the Impact and Cost of
Machine Learning-Based Malware Detection [5.876081415416375]
市販のマルウェア検知器の科学的検査が不足している。
市場をリードする4つのマルウェア検出ツールの科学的評価を行う。
以上の結果から,4つのツールがほぼ完璧な精度で再現できることが示唆された。
論文 参考訳(メタデータ) (2020-12-16T19:10:00Z) - Being Single Has Benefits. Instance Poisoning to Deceive Malware
Classifiers [47.828297621738265]
攻撃者は、マルウェア分類器を訓練するために使用されるデータセットをターゲットとした、高度で効率的な中毒攻撃を、どのように起動できるかを示す。
マルウェア検出領域における他の中毒攻撃とは対照的に、我々の攻撃はマルウェアファミリーではなく、移植されたトリガーを含む特定のマルウェアインスタンスに焦点を当てている。
我々は、この新たに発見された深刻な脅威に対する将来の高度な防御に役立つ包括的検出手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T15:27:44Z) - DAEMON: Dataset-Agnostic Explainable Malware Classification Using
Multi-Stage Feature Mining [3.04585143845864]
マルウェア分類は、新しい悪意のある亜種が属する家族を決定するタスクである。
DAEMONは,データセットに依存しない新しいマルウェア分類ツールである。
論文 参考訳(メタデータ) (2020-08-04T21:57:30Z) - Maat: Automatically Analyzing VirusTotal for Accurate Labeling and
Effective Malware Detection [71.84087757644708]
マルウェア分析と検出の研究コミュニティは、約60台のスキャナーのスキャン結果に基づいてAndroidアプリをラベル付けするために、オンラインプラットフォームVirusTotalに依存している。
VirusTotalから取得したスキャン結果を最もよく解釈する方法の基準はありません。
機械学習(ML)ベースのラベリングスキームを自動生成することで,標準化と持続可能性というこれらの問題に対処する手法であるMaatを実装した。
論文 参考訳(メタデータ) (2020-07-01T14:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。