論文の概要: Decoding the Secrets of Machine Learning in Malware Classification: A
Deep Dive into Datasets, Feature Extraction, and Model Performance
- arxiv url: http://arxiv.org/abs/2307.14657v1
- Date: Thu, 27 Jul 2023 07:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 15:30:47.948047
- Title: Decoding the Secrets of Machine Learning in Malware Classification: A
Deep Dive into Datasets, Feature Extraction, and Model Performance
- Title(参考訳): マルウェア分類における機械学習の秘密の復号:データセット、特徴抽出、モデル性能の深い研究
- Authors: Savino Dambra, Yufei Han, Simone Aonzo, Platon Kotzias, Antonino
Vitale, Juan Caballero, Davide Balzarotti, Leyla Bilge
- Abstract要約: これまでに670世帯の67Kサンプル(それぞれ100サンプル)で、最大のバランスのとれたマルウェアデータセットを収集しました。
我々は、我々のデータセットを用いて、マルウェア検出と家族分類のための最先端モデルを訓練する。
以上の結果から,静的な特徴は動的機能よりも優れており,両者を組み合わせることで,静的な特徴よりも限界的な改善がもたらされることがわかった。
- 参考スコア(独自算出の注目度): 25.184668510417545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many studies have proposed machine-learning (ML) models for malware detection
and classification, reporting an almost-perfect performance. However, they
assemble ground-truth in different ways, use diverse static- and
dynamic-analysis techniques for feature extraction, and even differ on what
they consider a malware family. As a consequence, our community still lacks an
understanding of malware classification results: whether they are tied to the
nature and distribution of the collected dataset, to what extent the number of
families and samples in the training dataset influence performance, and how
well static and dynamic features complement each other.
This work sheds light on those open questions. by investigating the key
factors influencing ML-based malware detection and classification. For this, we
collect the largest balanced malware dataset so far with 67K samples from 670
families (100 samples each), and train state-of-the-art models for malware
detection and family classification using our dataset. Our results reveal that
static features perform better than dynamic features, and that combining both
only provides marginal improvement over static features. We discover no
correlation between packing and classification accuracy, and that missing
behaviors in dynamically-extracted features highly penalize their performance.
We also demonstrate how a larger number of families to classify make the
classification harder, while a higher number of samples per family increases
accuracy. Finally, we find that models trained on a uniform distribution of
samples per family better generalize on unseen data.
- Abstract(参考訳): 多くの研究が、マルウェアの検出と分類のための機械学習モデルを提案し、ほぼ完璧な性能を報告している。
しかし、それらは異なる方法で基盤を組み立て、特徴抽出のために多様な静的および動的解析技術を使用し、マルウェアファミリーを考えるものによってさえ異なる。
その結果、我々のコミュニティは、収集されたデータセットの性質と分布に結びついているかどうか、トレーニングデータセットの家族やサンプルの数がパフォーマンスにどの程度影響を与えているか、静的機能と動的機能がいかに補完するかといった、マルウェア分類結果の理解を欠いている。
この仕事はこれらのオープンな質問に光を当てる。
MLベースのマルウェアの検出と分類に影響を及ぼす重要な要因を調べる。
このために、これまでで最大のバランスのとれたマルウェアデータセットを670家族(それぞれ100のサンプル)から67Kのサンプルで収集し、我々のデータセットを使ってマルウェア検出と家族分類のための最先端のモデルを訓練した。
その結果,静的な特徴は動的機能よりも優れており,両者の組み合わせは静的機能よりも限界的な改善をもたらすことがわかった。
その結果,パッキンと分類精度の相関は認められず,動的抽出特徴の欠落が性能を著しく低下させることがわかった。
また,分類を行う家族の数が増えると分類が難しくなり,また1家族あたりのサンプル数が増えると精度が向上することを示した。
最後に、家族ごとのサンプルの均一分布に基づいて訓練されたモデルが、目に見えないデータに基づいてより一般化されることが分かる。
関連論文リスト
- Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Multifamily Malware Models [5.414308305392762]
我々は、トレーニングデータセットの一般性と対応する機械学習モデルの精度との関係を定量化するために、バイト$n$-gramの機能に基づいた実験を行う。
近隣のアルゴリズムは驚くほどよく一般化され、他の機械学習手法よりもはるかに優れています。
論文 参考訳(メタデータ) (2022-06-27T13:06:31Z) - HardVis: Visual Analytics to Handle Instance Hardness Using
Undersampling and Oversampling Techniques [74.09665819220567]
HardVisは、主に不均衡な分類シナリオでインスタンスの硬さを処理するために設計されたビジュアル分析システムである。
ユーザはさまざまな視点からデータのサブセットを探索して、これらのパラメータをすべて決定できる。
HardVisの有効性と有効性は仮説的利用シナリオとユースケースで実証される。
論文 参考訳(メタデータ) (2022-03-29T17:04:16Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Data-Centric Machine Learning in the Legal Domain [0.2624902795082451]
本稿では,データセットの変化がモデルの性能に与える影響について考察する。
法律ドメインから公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度がパフォーマンスに与える影響について検討する。
観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。
論文 参考訳(メタデータ) (2022-01-17T23:05:14Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - New Datasets for Dynamic Malware Classification [0.0]
悪意のあるソフトウェアであるVrusSamplesとVrusShareの2つの新しい、更新されたデータセットを紹介します。
本稿では、これらの2つのデータセットのバランスとバランスの取れていないバージョンにおけるマルチクラスのマルウェア分類性能について分析する。
その結果,不均衡なVirusSampleデータセットでは,Support Vector Machineが94%のスコアを達成していることがわかった。
最も一般的な勾配向上ベースのモデルのひとつであるXGBoostは、VirusShareデータセットの両バージョンにおいて、90%と80%のスコアを達成している。
論文 参考訳(メタデータ) (2021-11-30T08:31:16Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Mind the Gap: On Bridging the Semantic Gap between Machine Learning and
Information Security [3.9629825964453986]
機械学習がマルウェアの振る舞いを学習し、新しいマルウェアサンプルを検出し、情報セキュリティを大幅に改善する可能性にもかかわらず、デプロイされたシステムにおいて、高影響のML技術はほとんどない。
我々は、InfoSecのハイインパクト化におけるMLの失敗は、2つのコミュニティ間の断絶に起因していると仮定する。
具体的には、MLが使用する現在のデータセットと表現は、実行可能体の振る舞いを学ぶのに適していない。
論文 参考訳(メタデータ) (2020-05-04T19:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。