論文の概要: Malware Classification Using Static Disassembly and Machine Learning
- arxiv url: http://arxiv.org/abs/2201.07649v1
- Date: Fri, 10 Dec 2021 18:14:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-04 22:26:43.958228
- Title: Malware Classification Using Static Disassembly and Machine Learning
- Title(参考訳): 静的分解と機械学習を用いたマルウェア分類
- Authors: Zhenshuo Chen, Eoin Brophy, Tomas Ward
- Abstract要約: マルウェアファミリーを分類するために,Windows PEセクション,コンテンツ,インポートライブラリのサイズと許可を含む,抽出が容易で小規模な4つの機能を提案する。
APIシーケンスのような詳細な行動関連機能と比較して、提案された機能はマルウェアに関するマクロな情報を提供する。
提案手法は,従来の機械学習アルゴリズム(ランサムフォレスト)とともに,99.40%の精度で提案されている。
- 参考スコア(独自算出の注目度): 1.5469452301122177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Network and system security are incredibly critical issues now. Due to the
rapid proliferation of malware, traditional analysis methods struggle with
enormous samples.
In this paper, we propose four easy-to-extract and small-scale features,
including sizes and permissions of Windows PE sections, content complexity, and
import libraries, to classify malware families, and use automatic machine
learning to search for the best model and hyper-parameters for each feature and
their combinations. Compared with detailed behavior-related features like API
sequences, proposed features provide macroscopic information about malware. The
analysis is based on static disassembly scripts and hexadecimal machine code.
Unlike dynamic behavior analysis, static analysis is resource-efficient and
offers complete code coverage, but is vulnerable to code obfuscation and
encryption.
The results demonstrate that features which work well in dynamic analysis are
not necessarily effective when applied to static analysis. For instance, API
4-grams only achieve 57.96% accuracy and involve a relatively high dimensional
feature set (5000 dimensions). In contrast, the novel proposed features
together with a classical machine learning algorithm (Random Forest) presents
very good accuracy at 99.40% and the feature vector is of much smaller
dimension (40 dimensions). We demonstrate the effectiveness of this approach
through integration in IDA Pro, which also facilitates the collection of new
training samples and subsequent model retraining.
- Abstract(参考訳): ネットワークとシステムセキュリティは今、信じられないほど重要な問題です。
マルウェアの急激な増殖により、従来の分析手法は膨大なサンプルに苦しむ。
本稿では,Windows PEのセクションのサイズやパーミッション,コンテンツ複雑度,インポートライブラリなど,抽出が容易で小規模な4つの機能を提案し,マルウェアファミリーを分類し,自動機械学習を用いて各機能と組み合わせごとに最適なモデルとハイパーパラメータを検索する。
APIシーケンスのような詳細な行動関連機能と比較して、提案された機能はマルウェアに関するマクロな情報を提供する。
解析は静的な分解スクリプトとヘキサデミナルマシンコードに基づいている。
動的動作解析とは異なり、静的解析はリソース効率が高く、完全なコードカバレッジを提供するが、コードの難読化や暗号化に弱い。
その結果,動的解析にうまく機能する機能は,静的解析に適用しても必ずしも有効ではないことがわかった。
例えば、api 4-gramは57.96%の精度しか達成せず、比較的高次元の機能セット(5000次元)を必要とする。
対照的に、提案された特徴は古典的な機械学習アルゴリズム(ランサムフォレスト)と共に99.40%の精度を示し、特徴ベクトルはより小さな次元(40次元)である。
IDA Proへの統合によるこのアプローチの有効性を実証し,新たなトレーニングサンプルの収集とその後のモデル再訓練を容易にする。
関連論文リスト
- Challenging Machine Learning Algorithms in Predicting Vulnerable JavaScript Functions [2.243674903279612]
最先端の機械学習技術は、JavaScriptプログラムのセキュリティ脆弱性のある関数を予測することができる。
最高性能のアルゴリズムはKNNで、F値0.76の脆弱性関数の予測モデルを作成している。
深層学習,木と林の分類,SVMは0.70以上のF尺度と競合した。
論文 参考訳(メタデータ) (2024-05-12T08:23:42Z) - E&V: Prompting Large Language Models to Perform Static Analysis by
Pseudo-code Execution and Verification [7.745665775992235]
大きな言語モデル(LLM)は、ソフトウェア工学のタスクに新しい機能を提供する。
LLMは擬似コードの実行をシミュレートし、最小限の努力で擬似コードにエンコードされた静的解析を効果的に実行する。
E&Vは、外部のオラクルを必要とせずに擬似コード実行の検証プロセスを含む。
論文 参考訳(メタデータ) (2023-12-13T19:31:00Z) - Decoding the Secrets of Machine Learning in Malware Classification: A
Deep Dive into Datasets, Feature Extraction, and Model Performance [25.184668510417545]
これまでに670世帯の67Kサンプル(それぞれ100サンプル)で、最大のバランスのとれたマルウェアデータセットを収集しました。
我々は、我々のデータセットを用いて、マルウェア検出と家族分類のための最先端モデルを訓練する。
以上の結果から,静的な特徴は動的機能よりも優れており,両者を組み合わせることで,静的な特徴よりも限界的な改善がもたらされることがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:18:10Z) - Investigating Feature and Model Importance in Android Malware Detection: An Implemented Survey and Experimental Comparison of ML-Based Methods [2.9248916859490173]
静的解析だけで抽出した特徴を用いて高い検出精度が得られることを示す。
ランダムフォレストは一般的に最も効果的なモデルであり、より複雑なディープラーニングアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T10:48:10Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Quo Vadis: Hybrid Machine Learning Meta-Model based on Contextual and Behavioral Malware Representations [5.439020425819001]
複数のディープラーニングモデルを同時に利用するハイブリッド機械学習アーキテクチャを提案する。
我々は,現在の最先端モデルの能力よりも優れた検出率を報告した。
論文 参考訳(メタデータ) (2022-08-20T05:30:16Z) - ALBench: A Framework for Evaluating Active Learning in Object Detection [102.81795062493536]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。
自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文 参考訳(メタデータ) (2022-07-27T07:46:23Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Simple and Effective VAE Training with Calibrated Decoders [123.08908889310258]
変分オートエンコーダ(VAE)は、複雑な分布をモデル化するための効果的で簡単な方法である。
復号分布の不確かさを学習する校正復号器の影響について検討する。
本稿では,一般的なガウス復号器の簡易かつ斬新な修正を提案し,その予測分散を解析的に計算する。
論文 参考訳(メタデータ) (2020-06-23T17:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。