論文の概要: RawMal-TF: Raw Malware Dataset Labeled by Type and Family
- arxiv url: http://arxiv.org/abs/2506.23909v1
- Date: Mon, 30 Jun 2025 14:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.104489
- Title: RawMal-TF: Raw Malware Dataset Labeled by Type and Family
- Title(参考訳): RawMal-TF: タイプとファミリーでラベル付けされた生のマルウェアデータセット
- Authors: David Bálik, Martin Jureček, Mark Stamp,
- Abstract要約: この研究は、マルウェアの種類と家族レベルの両方にラベル付けされた新しいデータセットを開発することによって、機械学習を用いたマルウェア分類の課題に対処する。
データセットには14のマルウェアタイプと17のマルウェアファミリーが含まれており、統合された特徴抽出パイプラインを使用して処理された。
マルウェアと良性サンプルのバイナリ分類において、ランダムフォレストとXGBoostは全データセットに対して高い精度を達成した。
- 参考スコア(独自算出の注目度): 1.2289361708127875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work addresses the challenge of malware classification using machine learning by developing a novel dataset labeled at both the malware type and family levels. Raw binaries were collected from sources such as VirusShare, VX Underground, and MalwareBazaar, and subsequently labeled with family information parsed from binary names and type-level labels integrated from ClarAVy. The dataset includes 14 malware types and 17 malware families, and was processed using a unified feature extraction pipeline based on static analysis, particularly extracting features from Portable Executable headers, to support advanced classification tasks. The evaluation was focused on three key classification tasks. In the binary classification of malware versus benign samples, Random Forest and XGBoost achieved high accuracy on the full datasets, reaching 98.5% for type-based detection and 98.98% for family-based detection. When using truncated datasets of 1,000 samples to assess performance under limited data conditions, both models still performed strongly, achieving 97.6% for type-based detection and 98.66% for family-based detection. For interclass classification, which distinguishes between malware types or families, the models reached up to 97.5% accuracy on type-level tasks and up to 93.7% on family-level tasks. In the multiclass classification setting, which assigns samples to the correct type or family, SVM achieved 81.1% accuracy on type labels, while Random Forest and XGBoost reached approximately 73.4% on family labels. The results highlight practical trade-offs between accuracy and computational cost, and demonstrate that labeling at both the type and family levels enables more fine-grained and insightful malware classification. The work establishes a robust foundation for future research on advanced malware detection and classification.
- Abstract(参考訳): この研究は、マルウェアの種類と家族レベルの両方にラベル付けされた新しいデータセットを開発することによって、機械学習を用いたマルウェア分類の課題に対処する。
VirusShare、VX Underground、MalwareBazaarなどのソースから生のバイナリが収集され、その後ClarAVyから統合されたバイナリ名とタイプレベルのラベルから解析された家族情報でラベル付けされた。
データセットには14のマルウェアタイプと17のマルウェアファミリーが含まれており、静的解析に基づいて統合された機能抽出パイプラインを使用して処理され、特にPortable Executableヘッダから機能を抽出して高度な分類タスクをサポートする。
評価は3つの重要な分類課題に焦点をあてた。
マルウェアと良性サンプルのバイナリ分類において、ランダムフォレストとXGBoostは全データセットで高い精度を達成し、型ベースの検出では98.5%、家族ベースの検出では98.98%に達した。
限られたデータ条件下でのパフォーマンスを評価するために1,000サンプルの切り離されたデータセットを使用する場合、どちらのモデルも強く機能し、型ベースの検出では97.6%、家族ベースの検出では98.66%を達成している。
マルウェアの種類や家族を区別するクラス間分類では、タイプレベルのタスクでは97.5%、ファミリーレベルのタスクでは93.7%に達する。
サンプルを正しいタイプまたはファミリーに割り当てるマルチクラス分類設定では、SVMはタイプラベルで81.1%の精度を達成し、Random ForestとXGBoostはファミリーラベルで約73.4%に達した。
その結果, 精度と計算コストのトレードオフが顕著になり, タイプレベルとファミリーレベルのラベル付けにより, よりきめ細やかなマルウェア分類が可能となった。
この研究は、先進的なマルウェアの検出と分類に関する将来の研究のための堅牢な基盤を確立する。
関連論文リスト
- Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Semi-supervised Classification of Malware Families Under Extreme Class Imbalance via Hierarchical Non-Negative Matrix Factorization with Automatic Model Selection [34.7994627734601]
マルウェアファミリーラベリングプロセスの初期段階で使用できる新しい階層型半教師付きアルゴリズムを提案する。
HNMFkでは、マルウェアデータの階層構造と半教師付き設定を併用し、極度のクラス不均衡の条件下でマルウェアファミリーを分類することができる。
我々のソリューションは、新しいマルウェアファミリーの同定において有望な結果をもたらす、断固とした予測または拒絶オプションを実行することができる。
論文 参考訳(メタデータ) (2023-09-12T23:45:59Z) - Decoding the Secrets of Machine Learning in Malware Classification: A
Deep Dive into Datasets, Feature Extraction, and Model Performance [25.184668510417545]
これまでに670世帯の67Kサンプル(それぞれ100サンプル)で、最大のバランスのとれたマルウェアデータセットを収集しました。
我々は、我々のデータセットを用いて、マルウェア検出と家族分類のための最先端モデルを訓練する。
以上の結果から,静的な特徴は動的機能よりも優れており,両者を組み合わせることで,静的な特徴よりも限界的な改善がもたらされることがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:18:10Z) - Classification and Online Clustering of Zero-Day Malware [4.409836695738518]
本稿では,既存の家族に割り当てるために,あるいは新たな家族のサンプルをクラスタリングするために,入ってくる悪意のあるサンプルをオンラインに処理することに焦点を当てる。
マルチ層パーセプトロンの分類スコアに基づいて,どのサンプルを分類し,どのサンプルを新しいマルウェア群に分類するかを決定した。
論文 参考訳(メタデータ) (2023-05-01T00:00:07Z) - The Familiarity Hypothesis: Explaining the Behavior of Deep Open Set
Methods [86.39044549664189]
特徴ベクトルデータに対する異常検出アルゴリズムは異常を外れ値として識別するが、外れ値検出はディープラーニングではうまく機能しない。
本論文は, 新規性の有無ではなく, 慣れ親しんだ特徴の欠如を検知しているため, これらの手法が成功するというFamiliarity仮説を提案する。
本論文は,親しみやすさの検出が表現学習の必然的な結果であるかどうかを論じる。
論文 参考訳(メタデータ) (2022-03-04T18:32:58Z) - New Datasets for Dynamic Malware Classification [0.0]
悪意のあるソフトウェアであるVrusSamplesとVrusShareの2つの新しい、更新されたデータセットを紹介します。
本稿では、これらの2つのデータセットのバランスとバランスの取れていないバージョンにおけるマルチクラスのマルウェア分類性能について分析する。
その結果,不均衡なVirusSampleデータセットでは,Support Vector Machineが94%のスコアを達成していることがわかった。
最も一般的な勾配向上ベースのモデルのひとつであるXGBoostは、VirusShareデータセットの両バージョンにおいて、90%と80%のスコアを達成している。
論文 参考訳(メタデータ) (2021-11-30T08:31:16Z) - Label-Assemble: Leveraging Multiple Datasets with Partial Labels [68.46767639240564]
Label-Assemble”は、公開データセットのアセンブリから部分的なラベルの可能性を最大限に活用することを目的としている。
陰例からの学習は,コンピュータ支援型疾患の診断と検出の双方を促進することが判明した。
論文 参考訳(メタデータ) (2021-09-25T02:48:17Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。