論文の概要: EMBERSim: A Large-Scale Databank for Boosting Similarity Search in
Malware Analysis
- arxiv url: http://arxiv.org/abs/2310.01835v1
- Date: Tue, 3 Oct 2023 06:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 17:15:02.020032
- Title: EMBERSim: A Large-Scale Databank for Boosting Similarity Search in
Malware Analysis
- Title(参考訳): EMBERSim: マルウェア解析における類似性検索を促進する大規模データバンク
- Authors: Dragos Georgian Corlatescu, Alexandru Dinu, Mihaela Gaman, Paul
Sumedrea
- Abstract要約: 近年,定量化によるマルウェア検出から機械学習への移行が進んでいる。
本稿では、EMBERから始まるバイナリファイルの類似性研究の領域における欠陥に対処することを提案する。
我々は、EMBERに類似情報とマルウェアのクラスタグを付与し、類似性空間のさらなる研究を可能にする。
- 参考スコア(独自算出の注目度): 48.5877840394508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years there has been a shift from heuristics-based malware
detection towards machine learning, which proves to be more robust in the
current heavily adversarial threat landscape. While we acknowledge machine
learning to be better equipped to mine for patterns in the increasingly high
amounts of similar-looking files, we also note a remarkable scarcity of the
data available for similarity-targeted research. Moreover, we observe that the
focus in the few related works falls on quantifying similarity in malware,
often overlooking the clean data. This one-sided quantification is especially
dangerous in the context of detection bypass. We propose to address the
deficiencies in the space of similarity research on binary files, starting from
EMBER - one of the largest malware classification data sets. We enhance EMBER
with similarity information as well as malware class tags, to enable further
research in the similarity space. Our contribution is threefold: (1) we publish
EMBERSim, an augmented version of EMBER, that includes similarity-informed
tags; (2) we enrich EMBERSim with automatically determined malware class tags
using the open-source tool AVClass on VirusTotal data and (3) we describe and
share the implementation for our class scoring technique and leaf similarity
method.
- Abstract(参考訳): 近年、ヒューリスティックスベースのマルウェア検出から機械学習へのシフトがあり、これは現在の非常に敵対的な脅威の状況において、より堅牢であることが証明されている。
機械学習は、ますます多くの類似したファイルのパターンをマイニングするのに適していることを認めていますが、類似度をターゲットとした研究で利用できるデータの顕著な不足も指摘しています。
また,本研究の焦点は,マルウェアの類似性を定量化することであり,しばしばクリーンデータを見下ろすことである。
この一方的な定量化は、検出バイパスの文脈では特に危険である。
本稿では,最大規模のマルウェア分類データセットであるEMBERを皮切りに,バイナリファイルの類似性研究の領域における欠陥に対処することを提案する。
我々は、EMBERに類似情報とマルウェアのクラスタグを付与し、類似性空間のさらなる研究を可能にする。
コントリビューションは3つある: 1) 類似情報を含むEMBERの強化版であるEMBERSimを公開し、(2) VirusTotalデータ上のオープンソースのツールであるAVClassを使って、自動決定されたマルウェアクラスタグでEMBERSimを豊かにし、(3) クラススコア技術とリーフ類似性メソッドの実装を記述し、共有する。
関連論文リスト
- Deep Learning Fusion For Effective Malware Detection: Leveraging Visual Features [12.431734971186673]
本研究では,マルウェアの実行可能量の異なるモードで学習した畳み込みニューラルネットワークモデルを融合する能力について検討する。
我々は3種類の視覚的マルウェアを利用した新しいマルチモーダル融合アルゴリズムを提案している。
提案した戦略は、与えられたデータセット内のマルウェアを識別する際の検出レート1.00(0-1)である。
論文 参考訳(メタデータ) (2024-05-23T08:32:40Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z) - Using Static and Dynamic Malware features to perform Malware Ascription [0.0]
我々は、悪意のある実行可能ファイルの静的および動的機能を用いて、その家族に基づいてマルウェアを分類する。
Cuckoo Sandboxと機械学習を活用して、この研究を前進させます。
論文 参考訳(メタデータ) (2021-12-05T18:01:09Z) - New Datasets for Dynamic Malware Classification [0.0]
悪意のあるソフトウェアであるVrusSamplesとVrusShareの2つの新しい、更新されたデータセットを紹介します。
本稿では、これらの2つのデータセットのバランスとバランスの取れていないバージョンにおけるマルチクラスのマルウェア分類性能について分析する。
その結果,不均衡なVirusSampleデータセットでは,Support Vector Machineが94%のスコアを達成していることがわかった。
最も一般的な勾配向上ベースのモデルのひとつであるXGBoostは、VirusShareデータセットの両バージョンにおいて、90%と80%のスコアを達成している。
論文 参考訳(メタデータ) (2021-11-30T08:31:16Z) - MOTIF: A Large Malware Reference Dataset with Ground Truth Family Labels [21.050311121388813]
我々は、Malware Open-source Threat Intelligence Family (MOTIF)データセットを作成しました。
MOTIFには454家族の3,095のマルウェアサンプルが含まれており、最大かつ最も多様な公開マルウェアデータセットとなっている。
我々は、同じマルウェアファミリーを記述するために使われる異なる名前のエイリアスを提供し、既存のツールの精度を初めてベンチマークすることができる。
論文 参考訳(メタデータ) (2021-11-29T23:59:50Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z) - Mind the Gap: On Bridging the Semantic Gap between Machine Learning and
Information Security [3.9629825964453986]
機械学習がマルウェアの振る舞いを学習し、新しいマルウェアサンプルを検出し、情報セキュリティを大幅に改善する可能性にもかかわらず、デプロイされたシステムにおいて、高影響のML技術はほとんどない。
我々は、InfoSecのハイインパクト化におけるMLの失敗は、2つのコミュニティ間の断絶に起因していると仮定する。
具体的には、MLが使用する現在のデータセットと表現は、実行可能体の振る舞いを学ぶのに適していない。
論文 参考訳(メタデータ) (2020-05-04T19:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。