論文の概要: Demystifying Feature Engineering in Malware Analysis of API Call Sequences
- arxiv url: http://arxiv.org/abs/2512.01666v1
- Date: Mon, 01 Dec 2025 13:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.870076
- Title: Demystifying Feature Engineering in Malware Analysis of API Call Sequences
- Title(参考訳): APIコールシーケンスのマルウェア解析における特徴工学のデミスティフィケーション
- Authors: Tianheng Qu, Hongsong Zhu, Limin Sun, Haining Wang, Haiqiang Fei, Zheng He, Zhi Li,
- Abstract要約: 機械学習(ML)は、マルウェア分析におけるAPI呼び出しシーケンスの分析に広く用いられている。
伝統的な特徴抽出は人間のドメイン知識に基づいている。
自動特徴抽出には自然言語処理(NLP)を用いる傾向にある。
- 参考スコア(独自算出の注目度): 12.196708313633522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) has been widely used to analyze API call sequences in malware analysis, which typically requires the expertise of domain specialists to extract relevant features from raw data. The extracted features play a critical role in malware analysis. Traditional feature extraction is based on human domain knowledge, while there is a trend of using natural language processing (NLP) for automatic feature extraction. This raises a question: how do we effectively select features for malware analysis based on API call sequences? To answer it, this paper presents a comprehensive study of investigating the impact of feature engineering upon malware classification.We first conducted a comparative performance evaluation under three models, Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), and Transformer, with respect to knowledge-based and NLP-based feature engineering methods. We observed that models with knowledge-based feature engineering inputs generally outperform those using NLP-based across all metrics, especially under smaller sample sizes. Then we analyzed a complete set of data features from API call sequences, our analysis reveals that models often focus on features such as handles and virtual addresses, which vary across executions and are difficult for human analysts to interpret.
- Abstract(参考訳): 機械学習(ML)は、マルウェア分析におけるAPI呼び出しシーケンスの分析に広く用いられており、通常は、生データから関連する機能を抽出するために、ドメインスペシャリストの専門知識を必要とする。
抽出された特徴は、マルウェア分析において重要な役割を果たす。
従来の特徴抽出は人間のドメイン知識に基づいており、自然言語処理(NLP)を用いて自動特徴抽出を行う傾向にある。
API呼び出しシーケンスに基づいて、マルウェア分析の機能を効果的に選択するには、どうすればよいのか?
そこで本研究では,CNN(Convolutional Neural Network),LSTM(Long Short-Term Memory),Transformer(Transformer)という3つのモデルを用いて,知識に基づく機能工学手法とNLPに基づく機能工学手法の比較評価を行った。
知識に基づく特徴工学的入力を持つモデルは、一般的に全ての指標、特により小さなサンプルサイズにおいて、NLPベースの入力よりも優れていた。
そして、我々はAPI呼び出しシーケンスからデータ機能の完全なセットを分析し、モデルがハンドラや仮想アドレスなどの機能に重点を置いていることを明らかにし、それは実行毎に異なり、人間のアナリストが解釈するのが困難である。
関連論文リスト
- Understanding Generative AI Content with Embedding Models [4.662332573448995]
ディープニューラルネットワーク(DNN)は、入力データを埋め込みと呼ばれる隠れた特徴ベクトルに変換することによって、機能を暗黙的に設計する。
実検体と人工知能(AI)が生み出すものの間に本質的な分離性が存在するという実証的証拠が見つかる。
論文 参考訳(メタデータ) (2024-08-19T22:07:05Z) - Notes on Applicability of Explainable AI Methods to Machine Learning
Models Using Features Extracted by Persistent Homology [0.0]
永続ホモロジー(PH)は機械学習に広く応用されている。
比較的単純なダウンストリーム機械学習モデルで十分なレベルの精度を達成する能力は、これらの抽出された特徴を処理する際に、パイプラインの優れた解釈可能性の基盤となる。
本稿では,このPH-MLパイプラインへの説明可能なAI手法の適用の可能性について検討する。
論文 参考訳(メタデータ) (2023-10-15T08:56:15Z) - Nebula: Self-Attention for Dynamic Malware Analysis [14.710331873072146]
我々は、多様な行動表現とフォーマットをまたいで一般化する、汎用的で自己注意型トランスフォーマーベースのニューラルアーキテクチャであるNebulaを紹介する。
我々は,異なる動的解析プラットフォームから取得した3つのデータセットを用いて,マルウェア検出と分類作業の両方について実験を行った。
自己教師付き学習事前学習は、トレーニングデータの20%しか持たない完全教師付きモデルの性能とどのように一致しているかを示す。
論文 参考訳(メタデータ) (2023-09-19T09:24:36Z) - PyRCA: A Library for Metric-based Root Cause Analysis [66.72542200701807]
PyRCAは、AIOps(AIOps)のためのRoot Cause Analysis(RCA)のオープンソースの機械学習ライブラリである。
複雑なメトリクス因果依存性を明らかにし、インシデントの根本原因を自動的に特定する、包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-20T09:55:10Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - Metric Tools for Sensitivity Analysis with Applications to Neural
Networks [0.0]
説明可能な人工知能(XAI)は、機械学習モデルによる予測の解釈を提供することを目的としている。
本稿では,計量手法を用いてMLモデルの感性を研究するための理論的枠組みを提案する。
$alpha$-curvesと呼ばれる新しいメトリクスの完全なファミリーが抽出される。
論文 参考訳(メタデータ) (2023-05-03T18:10:21Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。