論文の概要: AVScan2Vec: Feature Learning on Antivirus Scan Data for Production-Scale
Malware Corpora
- arxiv url: http://arxiv.org/abs/2306.06228v1
- Date: Fri, 9 Jun 2023 19:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 20:21:00.471045
- Title: AVScan2Vec: Feature Learning on Antivirus Scan Data for Production-Scale
Malware Corpora
- Title(参考訳): avscan2vec: 生産規模マルウェアコーパスのアンチウイルススキャンデータに関する特徴学習
- Authors: Robert J. Joyce, Tirth Patel, Charles Nicholas, Edward Raff
- Abstract要約: AVScan2Vecは、AVスキャンデータのセマンティクスを理解するために訓練された言語モデルである。
Dynamic Continuous Indexingを導入することで、AVScan2Vecベクタの最も近いクエリが、最大規模のマルウェア生成データセットにまで拡張可能であることを示す。
- 参考スコア(独自算出の注目度): 34.64029694362689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When investigating a malicious file, searching for related files is a common
task that malware analysts must perform. Given that production malware corpora
may contain over a billion files and consume petabytes of storage, many feature
extraction and similarity search approaches are computationally infeasible. Our
work explores the potential of antivirus (AV) scan data as a scalable source of
features for malware. This is possible because AV scan reports are widely
available through services such as VirusTotal and are ~100x smaller than the
average malware sample. The information within an AV scan report is abundant
with information and can indicate a malicious file's family, behavior, target
operating system, and many other characteristics. We introduce AVScan2Vec, a
language model trained to comprehend the semantics of AV scan data. AVScan2Vec
ingests AV scan data for a malicious file and outputs a meaningful vector
representation. AVScan2Vec vectors are ~3 to 85x smaller than popular
alternatives in use today, enabling faster vector comparisons and lower memory
usage. By incorporating Dynamic Continuous Indexing, we show that
nearest-neighbor queries on AVScan2Vec vectors can scale to even the largest
malware production datasets. We also demonstrate that AVScan2Vec vectors are
superior to other leading malware feature vector representations across nearly
all classification, clustering, and nearest-neighbor lookup algorithms that we
evaluated.
- Abstract(参考訳): 悪意のあるファイルを調べる場合、関連するファイルを探すことは、マルウェアアナリストが実行しなければならない一般的なタスクである。
プロダクションマルウェアコーパスには10億以上のファイルが含まれ、ペタバイトのストレージを消費する可能性があるため、多くの特徴抽出と類似性検索アプローチは計算不可能である。
我々の研究は、マルウェアの機能のスケーラブルな源として、アンチウイルス(AV)スキャンデータの可能性を探るものである。
これは、AVスキャンレポートが VirusTotal などのサービスを通じて広く利用でき、平均的なマルウェアサンプルの約100倍小さいためである。
AVスキャンレポート内の情報は豊富な情報であり、悪意のあるファイルの家族、動作、ターゲットオペレーティングシステム、その他多くの特徴を示すことができる。
AVScan2Vecは、AVスキャンデータのセマンティクスを理解するために訓練された言語モデルである。
AVScan2Vecは悪意のあるファイルのAVスキャンデータを取り込み、意味のあるベクトル表現を出力する。
AVScan2Vecベクターは、現在の一般的な代替品の約3倍から85倍小さく、ベクター比較の高速化とメモリ使用量の削減を実現している。
動的連続インデクシングを組み込むことにより,avscan2vecベクターのニアス・neighborクエリが,最大規模のマルウェア生産データセットにまで拡張可能であることを示す。
また、AVScan2Vecベクターは、評価したほぼすべての分類、クラスタリング、最寄りのルックアップアルゴリズムにおいて、他の主要なマルウェア特徴ベクトル表現よりも優れていることを示した。
関連論文リスト
- MalDICT: Benchmark Datasets on Malware Behaviors, Platforms, Exploitation, and Packers [44.700094741798445]
マルウェア分類に関する既存の研究は、悪意のあるファイルと良性のあるファイルの区別と、家族によるマルウェアの分類という2つのタスクにのみ焦点をあてている。
我々は、マルウェアが提示する行動の分類、マルウェアが実行しているプラットフォーム、マルウェアが悪用する脆弱性、マルウェアが詰め込まれているパッカーの4つのタスクを特定した。
ClarAVyを使ってタグ付けされ、合計で550万近い悪意のあるファイルで構成されています。
論文 参考訳(メタデータ) (2023-10-18T04:36:26Z) - EMBERSim: A Large-Scale Databank for Boosting Similarity Search in
Malware Analysis [48.5877840394508]
近年,定量化によるマルウェア検出から機械学習への移行が進んでいる。
本稿では、EMBERから始まるバイナリファイルの類似性研究の領域における欠陥に対処することを提案する。
我々は、EMBERに類似情報とマルウェアのクラスタグを付与し、類似性空間のさらなる研究を可能にする。
論文 参考訳(メタデータ) (2023-10-03T06:58:45Z) - Using Static and Dynamic Malware features to perform Malware Ascription [0.0]
我々は、悪意のある実行可能ファイルの静的および動的機能を用いて、その家族に基づいてマルウェアを分類する。
Cuckoo Sandboxと機械学習を活用して、この研究を前進させます。
論文 参考訳(メタデータ) (2021-12-05T18:01:09Z) - Mate! Are You Really Aware? An Explainability-Guided Testing Framework
for Robustness of Malware Detectors [49.34155921877441]
マルウェア検出装置のロバスト性を示すための説明可能性誘導型およびモデルに依存しないテストフレームワークを提案する。
次に、このフレームワークを使用して、操作されたマルウェアを検出する最先端のマルウェア検知器の能力をテストする。
我々の発見は、現在のマルウェア検知器の限界と、その改善方法に光を当てた。
論文 参考訳(メタデータ) (2021-11-19T08:02:38Z) - HAPSSA: Holistic Approach to PDF Malware Detection Using Signal and
Statistical Analysis [16.224649756613655]
悪意あるPDF文書は、様々なセキュリティ組織に深刻な脅威をもたらす。
最先端のアプローチでは、機械学習(ML)を使用してPDFマルウェアを特徴付ける機能を学ぶ。
本稿では,PDF マルウェア検出のための簡易かつ効果的な総合的なアプローチを導出する。
論文 参考訳(メタデータ) (2021-11-08T18:32:47Z) - Classifying Malware Images with Convolutional Neural Network Models [2.363388546004777]
本稿では,静的マルウェア分類にいくつかの畳み込みニューラルネットワーク(CNN)モデルを用いる。
インセプションV3モデルは99.24%の精度を達成しており、現在の最先端システムによって達成される98.52%の精度よりも優れている。
論文 参考訳(メタデータ) (2020-10-30T07:39:30Z) - Detecting malicious PDF using CNN [46.86114958340962]
悪意のあるPDFファイルは、コンピュータセキュリティに対する最大の脅威の1つだ。
本稿では,ファイルのバイトレベルにおける畳み込みニューラルネットワーク(CNN)のアンサンブルを用いた新しいアルゴリズムを提案する。
オンラインでダウンロード可能な90000ファイルのデータセットを用いて,本手法はPDFマルウェアの高検出率(94%)を維持していることを示す。
論文 参考訳(メタデータ) (2020-07-24T18:27:45Z) - Maat: Automatically Analyzing VirusTotal for Accurate Labeling and
Effective Malware Detection [71.84087757644708]
マルウェア分析と検出の研究コミュニティは、約60台のスキャナーのスキャン結果に基づいてAndroidアプリをラベル付けするために、オンラインプラットフォームVirusTotalに依存している。
VirusTotalから取得したスキャン結果を最もよく解釈する方法の基準はありません。
機械学習(ML)ベースのラベリングスキームを自動生成することで,標準化と持続可能性というこれらの問題に対処する手法であるMaatを実装した。
論文 参考訳(メタデータ) (2020-07-01T14:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。