論文の概要: Online Clustering of Known and Emerging Malware Families
- arxiv url: http://arxiv.org/abs/2405.03298v1
- Date: Mon, 6 May 2024 09:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 14:15:51.004550
- Title: Online Clustering of Known and Emerging Malware Families
- Title(参考訳): 既知のマルウェア家族のオンラインクラスタリング
- Authors: Olha Jurečková, Martin Jureček, Mark Stamp,
- Abstract要約: マルウェアのサンプルを悪質な特徴に応じて分類することが不可欠である。
オンラインクラスタリングアルゴリズムは、マルウェアの振る舞いを理解し、新たな脅威に対する迅速な応答を生み出すのに役立ちます。
本稿では,悪意のあるサンプルをオンラインクラスタリングしてマルウェア群に分類する,新しい機械学習モデルを提案する。
- 参考スコア(独自算出の注目度): 1.2289361708127875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Malware attacks have become significantly more frequent and sophisticated in recent years. Therefore, malware detection and classification are critical components of information security. Due to the large amount of malware samples available, it is essential to categorize malware samples according to their malicious characteristics. Clustering algorithms are thus becoming more widely used in computer security to analyze the behavior of malware variants and discover new malware families. Online clustering algorithms help us to understand malware behavior and produce a quicker response to new threats. This paper introduces a novel machine learning-based model for the online clustering of malicious samples into malware families. Streaming data is divided according to the clustering decision rule into samples from known and new emerging malware families. The streaming data is classified using the weighted k-nearest neighbor classifier into known families, and the online k-means algorithm clusters the remaining streaming data and achieves a purity of clusters from 90.20% for four clusters to 93.34% for ten clusters. This work is based on static analysis of portable executable files for the Windows operating system. Experimental results indicate that the proposed online clustering model can create high-purity clusters corresponding to malware families. This allows malware analysts to receive similar malware samples, speeding up their analysis.
- Abstract(参考訳): 近年、マルウェア攻撃はますます頻繁で高度化している。
したがって、マルウェアの検出と分類は情報セキュリティの重要な構成要素である。
大量のマルウェアサンプルが利用可能であるため、有害な特徴に応じてマルウェアサンプルを分類することが不可欠である。
そのため、クラスタリングアルゴリズムは、マルウェアの変種を解析し、新しいマルウェアファミリーを発見するために、コンピュータセキュリティにおいてより広く使われている。
オンラインクラスタリングアルゴリズムは、マルウェアの振る舞いを理解し、新たな脅威に対する迅速な応答を生み出すのに役立ちます。
本稿では,悪意のあるサンプルをオンラインクラスタリングしてマルウェア群に分類する,新しい機械学習モデルを提案する。
ストリーミングデータは、クラスタリング決定ルールに従って、既知の新しいマルウェアファミリーと新しいマルウェアファミリーのサンプルに分割される。
ストリーミングデータは、重み付きk平均近傍分類器を用いて既知のファミリーに分類され、オンラインk平均アルゴリズムは残りのストリーミングデータをクラスタ化し、4つのクラスタで90.20%から10つのクラスタで93.34%までのクラスタの純度を達成する。
この作業は、Windowsオペレーティングシステム用のポータブル実行ファイルの静的解析に基づいている。
実験結果から,提案したオンラインクラスタリングモデルにより,マルウェア群に対応する高純度クラスタを作成できることが示唆された。
これにより、マルウェアアナリストは同様のマルウェアサンプルを受け取り、分析を高速化できる。
関連論文リスト
- Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - EMBERSim: A Large-Scale Databank for Boosting Similarity Search in
Malware Analysis [48.5877840394508]
近年,定量化によるマルウェア検出から機械学習への移行が進んでいる。
本稿では、EMBERから始まるバイナリファイルの類似性研究の領域における欠陥に対処することを提案する。
我々は、EMBERに類似情報とマルウェアのクラスタグを付与し、類似性空間のさらなる研究を可能にする。
論文 参考訳(メタデータ) (2023-10-03T06:58:45Z) - Semi-supervised Classification of Malware Families Under Extreme Class Imbalance via Hierarchical Non-Negative Matrix Factorization with Automatic Model Selection [34.7994627734601]
マルウェアファミリーラベリングプロセスの初期段階で使用できる新しい階層型半教師付きアルゴリズムを提案する。
HNMFkでは、マルウェアデータの階層構造と半教師付き設定を併用し、極度のクラス不均衡の条件下でマルウェアファミリーを分類することができる。
我々のソリューションは、新しいマルウェアファミリーの同定において有望な結果をもたらす、断固とした予測または拒絶オプションを実行することができる。
論文 参考訳(メタデータ) (2023-09-12T23:45:59Z) - Classification and Online Clustering of Zero-Day Malware [4.409836695738518]
本稿では,既存の家族に割り当てるために,あるいは新たな家族のサンプルをクラスタリングするために,入ってくる悪意のあるサンプルをオンラインに処理することに焦点を当てる。
マルチ層パーセプトロンの分類スコアに基づいて,どのサンプルを分類し,どのサンプルを新しいマルウェア群に分類するかを決定した。
論文 参考訳(メタデータ) (2023-05-01T00:00:07Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - Clustering based opcode graph generation for malware variant detection [1.179179628317559]
マルウェア検出と家族帰属を行う手法を提案する。
提案手法はまず,各家庭のマルウェアからオプコードを取り出し,それぞれのオプコードグラフを構築する。
我々は,Opcodeグラフ上のクラスタリングアルゴリズムを用いて,同一のマルウェアファミリー内のマルウェアのクラスタを検出する。
論文 参考訳(メタデータ) (2022-11-18T06:12:33Z) - New Datasets for Dynamic Malware Classification [0.0]
悪意のあるソフトウェアであるVrusSamplesとVrusShareの2つの新しい、更新されたデータセットを紹介します。
本稿では、これらの2つのデータセットのバランスとバランスの取れていないバージョンにおけるマルチクラスのマルウェア分類性能について分析する。
その結果,不均衡なVirusSampleデータセットでは,Support Vector Machineが94%のスコアを達成していることがわかった。
最も一般的な勾配向上ベースのモデルのひとつであるXGBoostは、VirusShareデータセットの両バージョンにおいて、90%と80%のスコアを達成している。
論文 参考訳(メタデータ) (2021-11-30T08:31:16Z) - Being Single Has Benefits. Instance Poisoning to Deceive Malware
Classifiers [47.828297621738265]
攻撃者は、マルウェア分類器を訓練するために使用されるデータセットをターゲットとした、高度で効率的な中毒攻撃を、どのように起動できるかを示す。
マルウェア検出領域における他の中毒攻撃とは対照的に、我々の攻撃はマルウェアファミリーではなく、移植されたトリガーを含む特定のマルウェアインスタンスに焦点を当てている。
我々は、この新たに発見された深刻な脅威に対する将来の高度な防御に役立つ包括的検出手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T15:27:44Z) - DAEMON: Dataset-Agnostic Explainable Malware Classification Using
Multi-Stage Feature Mining [3.04585143845864]
マルウェア分類は、新しい悪意のある亜種が属する家族を決定するタスクである。
DAEMONは,データセットに依存しない新しいマルウェア分類ツールである。
論文 参考訳(メタデータ) (2020-08-04T21:57:30Z) - Detecting malicious PDF using CNN [46.86114958340962]
悪意のあるPDFファイルは、コンピュータセキュリティに対する最大の脅威の1つだ。
本稿では,ファイルのバイトレベルにおける畳み込みニューラルネットワーク(CNN)のアンサンブルを用いた新しいアルゴリズムを提案する。
オンラインでダウンロード可能な90000ファイルのデータセットを用いて,本手法はPDFマルウェアの高検出率(94%)を維持していることを示す。
論文 参考訳(メタデータ) (2020-07-24T18:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。