論文の概要: Clustering Malware at Scale: A First Full-Benchmark Study
- arxiv url: http://arxiv.org/abs/2511.23198v2
- Date: Tue, 02 Dec 2025 14:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 14:50:32.066556
- Title: Clustering Malware at Scale: A First Full-Benchmark Study
- Title(参考訳): 大規模マルウェアのクラスタ化 - 最初のベンチマーク研究
- Authors: Martin Mocko, Jakub Ševcech, Daniela Chudá,
- Abstract要約: マルウェアクラスタリングの品質を評価し,BodmasとEmberの2つの大規模公開ベンチマークマルウェアデータセットの最先端性を確立する。
以上の結果から,良性サンプルの導入はクラスタリングの品質を著しく低下させるものではないことが示唆された。
一般的な意見とは対照的に、私たちの上位クラスタリングパフォーマーはK-MeansとBIRCHで、DBSCANとHACは遅れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have shown that malware attacks still happen with high frequency. Malware experts seek to categorize and classify incoming samples to confirm their trustworthiness or prove their maliciousness. One of the ways in which groups of malware samples can be identified is through malware clustering. Despite the efforts of the community, malware clustering which incorporates benign samples has been under-explored. Moreover, despite the availability of larger public benchmark malware datasets, malware clustering studies have avoided fully utilizing these datasets in their experiments, often resorting to small datasets with only a few families. Additionally, the current state-of-the-art solutions for malware clustering remain unclear. In our study, we evaluate malware clustering quality and establish the state-of-the-art on Bodmas and Ember - two large public benchmark malware datasets. Ours is the first study of malware clustering performed on whole malware benchmark datasets. Additionally, we extend the malware clustering task by incorporating benign samples. Our results indicate that incorporating benign samples does not significantly degrade clustering quality. We find that there are differences in the quality of the created clusters between Ember and Bodmas, as well as a private industry dataset. Contrary to popular opinion, our top clustering performers are K-Means and BIRCH, with DBSCAN and HAC falling behind.
- Abstract(参考訳): 近年、マルウェアによる攻撃は高い頻度で発生している。
マルウェアの専門家は、入ってくるサンプルを分類し分類し、信頼性を確認したり、悪意を証明しようとする。
マルウェアサンプルのグループを特定する方法の1つは、マルウェアのクラスタリングである。
コミュニティの努力にもかかわらず、良質なサンプルを組み込んだマルウェアクラスタリングは未調査である。
さらに、より大規模な公開ベンチマークマルウェアデータセットが利用可能であるにもかかわらず、マルウェアクラスタリングの研究は、これらのデータセットを実験で完全に活用することを避けており、多くの場合、少数の家族を持つ小さなデータセットに頼っている。
さらに、マルウェアクラスタリングの現在の最先端ソリューションは、まだ不明である。
本研究では,マルウェアクラスタリングの品質を評価し,BodmasとEmberという2つの大規模公開ベンチマークマルウェアデータセットの最先端性を確立する。
我々の研究は、マルウェアのベンチマークデータセット全体に対して行われたマルウェアクラスタリングに関する最初の研究である。
さらに、良性サンプルを組み込むことで、マルウェアクラスタリングタスクを拡張する。
以上の結果から,良性サンプルの導入はクラスタリングの品質を著しく低下させるものではないことが示唆された。
EmberとBodmasのクラスタの品質は、プライベートな業界データセットと異なります。
一般的な意見とは対照的に、私たちの上位クラスタリングパフォーマーはK-MeansとBIRCHで、DBSCANとHACは遅れています。
関連論文リスト
- On Evaluating Adversarial Robustness of Volumetric Medical Segmentation Models [59.45628259925441]
体積医学セグメンテーションモデルは、臓器および腫瘍ベースのセグメンテーションタスクにおいて大きな成功を収めた。
敵の攻撃に対するその脆弱性はほとんど解明されていない。
このことは、既存のモデルの堅牢性を調べることの重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-12T17:59:42Z) - Online Clustering of Known and Emerging Malware Families [1.2289361708127875]
マルウェアのサンプルを悪質な特徴に応じて分類することが不可欠である。
オンラインクラスタリングアルゴリズムは、マルウェアの振る舞いを理解し、新たな脅威に対する迅速な応答を生み出すのに役立ちます。
本稿では,悪意のあるサンプルをオンラインクラスタリングしてマルウェア群に分類する,新しい機械学習モデルを提案する。
論文 参考訳(メタデータ) (2024-05-06T09:20:17Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - EMBERSim: A Large-Scale Databank for Boosting Similarity Search in
Malware Analysis [48.5877840394508]
近年,定量化によるマルウェア検出から機械学習への移行が進んでいる。
本稿では、EMBERから始まるバイナリファイルの類似性研究の領域における欠陥に対処することを提案する。
我々は、EMBERに類似情報とマルウェアのクラスタグを付与し、類似性空間のさらなる研究を可能にする。
論文 参考訳(メタデータ) (2023-10-03T06:58:45Z) - Semi-supervised Classification of Malware Families Under Extreme Class Imbalance via Hierarchical Non-Negative Matrix Factorization with Automatic Model Selection [34.7994627734601]
マルウェアファミリーラベリングプロセスの初期段階で使用できる新しい階層型半教師付きアルゴリズムを提案する。
HNMFkでは、マルウェアデータの階層構造と半教師付き設定を併用し、極度のクラス不均衡の条件下でマルウェアファミリーを分類することができる。
我々のソリューションは、新しいマルウェアファミリーの同定において有望な結果をもたらす、断固とした予測または拒絶オプションを実行することができる。
論文 参考訳(メタデータ) (2023-09-12T23:45:59Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - Cluster-guided Contrastive Graph Clustering Network [53.16233290797777]
クラスタ誘導コントラストグラフクラスタリングネットワーク(CCGC)を提案する。
我々は、兄弟のサブネットワーク間で重みが共有されない特別なシームズエンコーダを設計することにより、グラフの2つのビューを構築する。
意味的な負のサンプルペアを構築するために、異なる高信頼度クラスタの中心を負のサンプルとみなす。
論文 参考訳(メタデータ) (2023-01-03T13:42:38Z) - Clustering based opcode graph generation for malware variant detection [1.179179628317559]
マルウェア検出と家族帰属を行う手法を提案する。
提案手法はまず,各家庭のマルウェアからオプコードを取り出し,それぞれのオプコードグラフを構築する。
我々は,Opcodeグラフ上のクラスタリングアルゴリズムを用いて,同一のマルウェアファミリー内のマルウェアのクラスタを検出する。
論文 参考訳(メタデータ) (2022-11-18T06:12:33Z) - New Datasets for Dynamic Malware Classification [0.0]
悪意のあるソフトウェアであるVrusSamplesとVrusShareの2つの新しい、更新されたデータセットを紹介します。
本稿では、これらの2つのデータセットのバランスとバランスの取れていないバージョンにおけるマルチクラスのマルウェア分類性能について分析する。
その結果,不均衡なVirusSampleデータセットでは,Support Vector Machineが94%のスコアを達成していることがわかった。
最も一般的な勾配向上ベースのモデルのひとつであるXGBoostは、VirusShareデータセットの両バージョンにおいて、90%と80%のスコアを達成している。
論文 参考訳(メタデータ) (2021-11-30T08:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。