論文の概要: Semantic Preprocessing for LLM-based Malware Analysis
- arxiv url: http://arxiv.org/abs/2506.12113v1
- Date: Fri, 13 Jun 2025 13:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.203783
- Title: Semantic Preprocessing for LLM-based Malware Analysis
- Title(参考訳): LLMを用いたマルウェア解析のためのセマンティック前処理
- Authors: Benjamin Marais, Tony Quertier, Grégoire Barrue,
- Abstract要約: 本稿では,Portable Executable ファイルのレポートを生成する新しい前処理手法を提案する。
この前処理の目的は、マルウェアアナリストが理解できるバイナリファイルの意味表現を集めることである。
この前処理を用いて、複雑なデータセット上で平均0.94の重み付きF1スコアを達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a context of malware analysis, numerous approaches rely on Artificial Intelligence to handle a large volume of data. However, these techniques focus on data view (images, sequences) and not on an expert's view. Noticing this issue, we propose a preprocessing that focuses on expert knowledge to improve malware semantic analysis and result interpretability. We propose a new preprocessing method which creates JSON reports for Portable Executable files. These reports gather features from both static and behavioral analysis, and incorporate packer signature detection, MITRE ATT\&CK and Malware Behavior Catalog (MBC) knowledge. The purpose of this preprocessing is to gather a semantic representation of binary files, understandable by malware analysts, and that can enhance AI models' explainability for malicious files analysis. Using this preprocessing to train a Large Language Model for Malware classification, we achieve a weighted-average F1-score of 0.94 on a complex dataset, representative of market reality.
- Abstract(参考訳): マルウェア分析の文脈では、多くのアプローチが大量のデータを扱うために人工知能に依存している。
しかし、これらのテクニックは、専門家の視点ではなく、データビュー(イメージ、シーケンス)に焦点を当てている。
そこで本研究では,マルウェアのセマンティック分析と結果の解釈性を改善するために,専門家の知識に着目した事前処理を提案する。
本稿では, Portable Executable ファイル用の JSON レポートを生成する新しい前処理手法を提案する。
これらのレポートは静的解析と行動解析の両方から特徴を集め、パッカーシグネチャ検出、MITRE ATT\&CK、Malware Behavior Catalog (MBC)の知識を取り入れている。
この前処理の目的は、マルウェアアナリストが理解できるバイナリファイルの意味表現を集め、悪意のあるファイル分析のためのAIモデルの説明可能性を高めることである。
この前処理を用いてマルウェア分類のためのLarge Language Modelをトレーニングし、市場現実を表す複雑なデータセット上で平均0.94の重み付きF1スコアを達成する。
関連論文リスト
- Enhanced Consistency Bi-directional GAN(CBiGAN) for Malware Anomaly Detection [0.25163931116642785]
本稿では,マルウェア異常検出分野におけるCBiGANの適用について紹介する。
我々は、ポータブル実行可能ファイル(PE)とObject Linking and Embedding(OLE)ファイルの両方を含む、いくつかのデータセットを利用する。
次に,214のマルウェアファミリーから自己コンパイルされた悪意のある実行ファイルを含む,PEおよびOLEファイルの多種多様なセットに対して,我々のモデルを評価した。
論文 参考訳(メタデータ) (2025-06-09T02:43:25Z) - ClarAVy: A Tool for Scalable and Accurate Malware Family Labeling [39.68433051199151]
家族のラベル付けは、サイバー攻撃の調査、帰属、修復に不可欠な要素である。
ClarAVyは悪意のあるファイルが属する家族を決定するツールである。
ClarAVyは、MOTIFとMalPediaデータセットのラベル付けにおいて、以前のリードツールよりも8~12パーセント高い精度を持つ。
論文 参考訳(メタデータ) (2025-02-04T22:55:39Z) - Exploring Large Language Models for Semantic Analysis and Categorization of Android Malware [0.0]
mspは、階層的な階層化チェーンと戦略的プロンプトエンジニアリングを通じて、Androidのマルウェア分析を強化するように設計されている。
mspは、関数、クラス、パッケージレベルで非常に堅牢な要約を提供しながら、最大77%の分類精度を達成することができる。
論文 参考訳(メタデータ) (2025-01-08T21:22:45Z) - A Lean Transformer Model for Dynamic Malware Analysis and Detection [0.0]
マルウェアは現代のコンピューティングの世界にとって急速に成長する脅威であり、既存の防衛線はこの問題に対処するのに十分な効率性を持っていない。
これまでの研究では、実行レポートから抽出したニューラルネットワークとAPI呼び出しシーケンスを活用することに成功した。
本稿では,悪意のあるファイルを検出するために,Transformersアーキテクチャに基づくエミュレーションオンリーモデルを設計する。
論文 参考訳(メタデータ) (2024-08-05T08:46:46Z) - Semantic Data Representation for Explainable Windows Malware Detection Models [0.0]
本稿では,PEマルウェアファイルに対する再利用可能なセマンティックスキーマを提供するPEマルウェアオントロジーを提案する。
このオントロジーは、PEファイルの静的マルウェア解析に焦点を当てたEMBERデータセットの構造に着想を得たものである。
また、EMBERの実験を支援するために、分数データセットを含む意味的に処理されたEMBERデータも公開する。
論文 参考訳(メタデータ) (2024-03-18T11:17:27Z) - Prompt Engineering-assisted Malware Dynamic Analysis Using GPT-4 [45.935748395725206]
GPT-4を用いた即時エンジニアリング支援型マルウェア動的解析手法を提案する。
この方法では、APIシーケンス内の各API呼び出しに対する説明テキストを作成するために、GPT-4が使用される。
BERTはテキストの表現を得るために使われ、そこからAPIシーケンスの表現を導出します。
論文 参考訳(メタデータ) (2023-12-13T17:39:44Z) - MalDICT: Benchmark Datasets on Malware Behaviors, Platforms, Exploitation, and Packers [44.700094741798445]
マルウェア分類に関する既存の研究は、悪意のあるファイルと良性のあるファイルの区別と、家族によるマルウェアの分類という2つのタスクにのみ焦点をあてている。
我々は、マルウェアが提示する行動の分類、マルウェアが実行しているプラットフォーム、マルウェアが悪用する脆弱性、マルウェアが詰め込まれているパッカーの4つのタスクを特定した。
ClarAVyを使ってタグ付けされ、合計で550万近い悪意のあるファイルで構成されています。
論文 参考訳(メタデータ) (2023-10-18T04:36:26Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - Towards an Automated Pipeline for Detecting and Classifying Malware
through Machine Learning [0.0]
Windows Portable Executable File (PE) を分類できるマルウェア分類パイプラインを提案する。
入力PEサンプルが与えられた場合、悪意または良性のいずれかに分類される。
悪意のある場合、パイプラインは脅威タイプ、家族、行動を確立するためにさらに分析する。
論文 参考訳(メタデータ) (2021-06-10T10:07:50Z) - Being Single Has Benefits. Instance Poisoning to Deceive Malware
Classifiers [47.828297621738265]
攻撃者は、マルウェア分類器を訓練するために使用されるデータセットをターゲットとした、高度で効率的な中毒攻撃を、どのように起動できるかを示す。
マルウェア検出領域における他の中毒攻撃とは対照的に、我々の攻撃はマルウェアファミリーではなく、移植されたトリガーを含む特定のマルウェアインスタンスに焦点を当てている。
我々は、この新たに発見された深刻な脅威に対する将来の高度な防御に役立つ包括的検出手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T15:27:44Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。