論文の概要: Semi-supervised Classification of Malware Families Under Extreme Class Imbalance via Hierarchical Non-Negative Matrix Factorization with Automatic Model Selection
- arxiv url: http://arxiv.org/abs/2309.06643v1
- Date: Tue, 12 Sep 2023 23:45:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 06:43:22.328137
- Title: Semi-supervised Classification of Malware Families Under Extreme Class Imbalance via Hierarchical Non-Negative Matrix Factorization with Automatic Model Selection
- Title(参考訳): 自動モデル選択による階層的非負行列分解による極端クラス不均衡下のマルウェア群の半教師付き分類
- Authors: Maksim E. Eren, Manish Bhattarai, Robert J. Joyce, Edward Raff, Charles Nicholas, Boian S. Alexandrov,
- Abstract要約: マルウェアファミリーラベリングプロセスの初期段階で使用できる新しい階層型半教師付きアルゴリズムを提案する。
HNMFkでは、マルウェアデータの階層構造と半教師付き設定を併用し、極度のクラス不均衡の条件下でマルウェアファミリーを分類することができる。
我々のソリューションは、新しいマルウェアファミリーの同定において有望な結果をもたらす、断固とした予測または拒絶オプションを実行することができる。
- 参考スコア(独自算出の注目度): 34.7994627734601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identification of the family to which a malware specimen belongs is essential in understanding the behavior of the malware and developing mitigation strategies. Solutions proposed by prior work, however, are often not practicable due to the lack of realistic evaluation factors. These factors include learning under class imbalance, the ability to identify new malware, and the cost of production-quality labeled data. In practice, deployed models face prominent, rare, and new malware families. At the same time, obtaining a large quantity of up-to-date labeled malware for training a model can be expensive. In this paper, we address these problems and propose a novel hierarchical semi-supervised algorithm, which we call the HNMFk Classifier, that can be used in the early stages of the malware family labeling process. Our method is based on non-negative matrix factorization with automatic model selection, that is, with an estimation of the number of clusters. With HNMFk Classifier, we exploit the hierarchical structure of the malware data together with a semi-supervised setup, which enables us to classify malware families under conditions of extreme class imbalance. Our solution can perform abstaining predictions, or rejection option, which yields promising results in the identification of novel malware families and helps with maintaining the performance of the model when a low quantity of labeled data is used. We perform bulk classification of nearly 2,900 both rare and prominent malware families, through static analysis, using nearly 388,000 samples from the EMBER-2018 corpus. In our experiments, we surpass both supervised and semi-supervised baseline models with an F1 score of 0.80.
- Abstract(参考訳): マルウェア標本が属する家族の同定は、マルウェアの挙動を理解し、緩和戦略を開発する上で不可欠である。
しかし、先行研究によって提案された解決策は、現実的な評価因子が欠如しているため、しばしば実践不可能である。
これらの要因には、クラス不均衡下での学習、新しいマルウェアを識別する能力、生産品質のラベル付きデータのコストが含まれる。
実際には、デプロイされたモデルは、顕著で稀で新しいマルウェアファミリーに直面しています。
同時に、モデルを訓練するための最新のラベル付きマルウェアの大量取得もコストがかかる。
本稿では,これらの問題に対処し,HNMFk分類器(HNMFk Classifier)と呼ばれる新しい階層的半教師付きアルゴリズムを提案する。
本手法は,自動モデル選択による非負行列分解,すなわちクラスタ数の推定に基づく。
HNMFk分類器を用いて、マルウェアデータの階層構造と半教師付き設定を併用し、極度のクラス不均衡の条件下でマルウェア群を分類する。
我々のソリューションは、新しいマルウェアファミリーの識別において有望な結果を生み出し、低量のラベル付きデータを使用する場合のモデルの性能維持を支援する、持続的な予測または拒絶オプションを実行することができる。
EMBER-2018コーパスの388,000点のサンプルを静的解析により,2900点近いマルウェアの集団分類を行った。
実験では、F1スコアが0.80の教師付きベースラインモデルと半教師付きベースラインモデルの両方を上回った。
関連論文リスト
- Multi-label Classification for Android Malware Based on Active Learning [7.599125552187342]
本稿ではMLCDroidを提案する。MLCDroidは、事前に定義された悪意のある動作の存在を直接示すことができるマルチラベル分類手法である。
我々は,70のアルゴリズム組み合わせの結果を比較し,有効性(73.3%)を評価する。
これは、きめ細かい悪意のある振る舞いについて、より詳細な情報を提供することを目的とした、最初のマルチラベルAndroidマルウェア分類アプローチである。
論文 参考訳(メタデータ) (2024-10-09T01:09:24Z) - Online Clustering of Known and Emerging Malware Families [1.2289361708127875]
マルウェアのサンプルを悪質な特徴に応じて分類することが不可欠である。
オンラインクラスタリングアルゴリズムは、マルウェアの振る舞いを理解し、新たな脅威に対する迅速な応答を生み出すのに役立ちます。
本稿では,悪意のあるサンプルをオンラインクラスタリングしてマルウェア群に分類する,新しい機械学習モデルを提案する。
論文 参考訳(メタデータ) (2024-05-06T09:20:17Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Decoding the Secrets of Machine Learning in Malware Classification: A
Deep Dive into Datasets, Feature Extraction, and Model Performance [25.184668510417545]
これまでに670世帯の67Kサンプル(それぞれ100サンプル)で、最大のバランスのとれたマルウェアデータセットを収集しました。
我々は、我々のデータセットを用いて、マルウェア検出と家族分類のための最先端モデルを訓練する。
以上の結果から,静的な特徴は動的機能よりも優れており,両者を組み合わせることで,静的な特徴よりも限界的な改善がもたらされることがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:18:10Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Anomaly Detection in Cybersecurity: Unsupervised, Graph-Based and
Supervised Learning Methods in Adversarial Environments [63.942632088208505]
現在の運用環境に固有ののは、敵対的機械学習の実践である。
本研究では,教師なし学習とグラフに基づく異常検出の可能性を検討する。
我々は,教師付きモデルの訓練時に,現実的な対人訓練機構を組み込んで,対人環境における強力な分類性能を実現する。
論文 参考訳(メタデータ) (2021-05-14T10:05:10Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - DAEMON: Dataset-Agnostic Explainable Malware Classification Using
Multi-Stage Feature Mining [3.04585143845864]
マルウェア分類は、新しい悪意のある亜種が属する家族を決定するタスクである。
DAEMONは,データセットに依存しない新しいマルウェア分類ツールである。
論文 参考訳(メタデータ) (2020-08-04T21:57:30Z) - Provable tradeoffs in adversarially robust classification [96.48180210364893]
我々は、ロバストなイソペリメトリに関する確率論の最近のブレークスルーを含む、新しいツールを開発し、活用する。
この結果から,データの不均衡時に増加する標準精度とロバスト精度の基本的なトレードオフが明らかになった。
論文 参考訳(メタデータ) (2020-06-09T09:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。