論文の概要: MalwarePT: A Binary-Level Foundation Model for Malware Analysis
- arxiv url: http://arxiv.org/abs/2605.16455v1
- Date: Fri, 15 May 2026 05:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 17:00:57.788106
- Title: MalwarePT: A Binary-Level Foundation Model for Malware Analysis
- Title(参考訳): MalwarePT: マルウェア分析のためのバイナリレベル基礎モデル
- Authors: Saastha Vasan, Yuzhou Nie, Kaie Chen, Yigitcan Kaya, Hojjat Aghakhani, Roman Vasilenko, Wenbo Guo, Christopher Kruegel, Giovanni Vigna,
- Abstract要約: MalwarePTは、ModernBERTスタイルのエンコーダ上に構築されたマルウェア分析のためのバイナリレベルの基礎モデルである。
コードセクションバイトにBPE(Byte-pair encoding)トークンをトレーニングし、頻繁なマルチバイトパターンを圧縮する。
- 参考スコア(独自算出の注目度): 18.754203608375704
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated malware analysis increasingly relies on machine learning, yet most existing methods remain task-specific and depend on handcrafted features or narrowly scoped models. Recent developments in binary-level foundation models suggest a path toward reusable program representations, but their application to malware analysis remains underexplored, and most still operate at byte-level tokenization, limiting their ability to capture multi-byte code patterns. In this work, we introduce MalwarePT, a binary-level foundation model for malware analysis built on a ModernBERT-style encoder and pretrained with masked language modeling on Windows PE code-section bytes. We study whether a single pretrained encoder can transfer across malware-analysis tasks at different granularities, and how tokenization design affects that transfer. We train a byte-pair encoding (BPE) tokenizer on code-section bytes to compress frequent multi-byte patterns within a fixed context budget. We evaluate MalwarePT on three downstream tasks spanning token-, function-, and document-level prediction: API call prediction, functionality classification, and malware (program) detection under temporal drift. Our evaluation demonstrates that pretraining yields substantial gains for API call prediction and functionality classification, and that increasing the BPE vocabulary beyond the byte-level baseline improves performance, with the strongest overall tradeoff at a vocabulary size of 1,024 tokens. In malware detection at FPR ~ 0.001, MalwarePT outperforms the neural network baselines, and is complementary to feature-engineering models that rely on PE structure. We also compare against existing binary foundation models and show that MalwarePT's design choices yield gains across all downstream tasks.
- Abstract(参考訳): 自動マルウェア分析は機械学習にますます依存しているが、既存の方法の多くはタスク固有のものであり、手作りの機能や狭い範囲のモデルに依存している。
バイナリレベルの基盤モデルの最近の発展は、再利用可能なプログラム表現への道筋を示しているが、マルウェア解析へのその応用は未検討であり、ほとんどはバイトレベルのトークン化で運用されており、マルチバイトのコードパターンをキャプチャする能力を制限している。
そこで本研究では,ModernBERT方式のエンコーダ上に構築され,Windows PEのコードセクションバイトにマスク付き言語モデリングをプリトレーニングしたマルウェア解析のためのバイナリレベル基盤モデルであるMalwarePTを紹介する。
本研究では,1つの事前学習エンコーダが,異なる粒度のマルウェア解析タスク間で転送可能であるか,トークン化設計がその転送に与える影響について検討する。
固定されたコンテキスト予算内で頻繁なマルチバイトパターンを圧縮するために、コードセクションバイトにBPE(Byte-pair encoding)トークンをトレーニングする。
トークンレベルの予測,関数レベルの予測,APIコールの予測,機能分類,時間的ドリフトによるマルウェア(プログラム)検出という,3つのダウンストリームタスクに対してMalwarePTを評価する。
評価の結果,APIコールの予測と機能分類において事前学習が大幅に向上し,BPE語彙がバイトレベルのベースラインを超えて増加することにより,最大で1,024トークンのボキャブラリサイズでのトレードオフが達成された。
FPR ~ 0.001 のマルウェア検出では、MalwarePT はニューラルネットワークのベースラインより優れており、PE構造に依存する機能エンジニアリングモデルと相補的である。
また、既存のバイナリ基盤モデルと比較し、MalwarePTの設計選択がすべての下流タスクで利益を得ることを示す。
関連論文リスト
- A Decompilation-Driven Framework for Malware Detection with Large Language Models [0.0]
本稿では,大規模言語モデル (LLM) が,実行可能コードを良性か悪性かのどちらかとして分類する際の有効性を評価する。
Ghidra disassemblerを使って、最初にWindows実行ファイルをCコードに分解する自動パイプラインを導入する。
我々は、キュレートされたマルウェアと良質なデータセットに基づいて訓練された微調整モデルが、バニラモデルよりも大幅に優れていることを実証した。
論文 参考訳(メタデータ) (2026-01-14T00:00:26Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Semantic Preprocessing for LLM-based Malware Analysis [0.0]
本稿では,Portable Executable ファイルのレポートを生成する新しい前処理手法を提案する。
この前処理の目的は、マルウェアアナリストが理解できるバイナリファイルの意味表現を集めることである。
この前処理を用いて、複雑なデータセット上で平均0.94の重み付きF1スコアを達成する。
論文 参考訳(メタデータ) (2025-06-13T13:39:00Z) - Enhanced Consistency Bi-directional GAN(CBiGAN) for Malware Anomaly Detection [0.25163931116642785]
本稿では,マルウェア異常検出分野におけるCBiGANの適用について紹介する。
我々は、ポータブル実行可能ファイル(PE)とObject Linking and Embedding(OLE)ファイルの両方を含む、いくつかのデータセットを利用する。
次に,214のマルウェアファミリーから自己コンパイルされた悪意のある実行ファイルを含む,PEおよびOLEファイルの多種多様なセットに対して,我々のモデルを評価した。
論文 参考訳(メタデータ) (2025-06-09T02:43:25Z) - Zero Day Ransomware Detection with Pulse: Function Classification with Transformer Models and Assembly Language [1.870031206586792]
動的バイナリー・インスツルメンテーション(Dynamic Binary Instrumentation)ツールであるPeekabooは、回避マルウェアを倒して、その真の振る舞いを捉えている。
本稿では,Transformerモデルとアセンブリ言語を用いたゼロデイランサムウェア検出のための新しいフレームワークであるPulseを提案する。
論文 参考訳(メタデータ) (2024-08-15T00:22:32Z) - A Lean Transformer Model for Dynamic Malware Analysis and Detection [0.0]
マルウェアは現代のコンピューティングの世界にとって急速に成長する脅威であり、既存の防衛線はこの問題に対処するのに十分な効率性を持っていない。
これまでの研究では、実行レポートから抽出したニューラルネットワークとAPI呼び出しシーケンスを活用することに成功した。
本稿では,悪意のあるファイルを検出するために,Transformersアーキテクチャに基づくエミュレーションオンリーモデルを設計する。
論文 参考訳(メタデータ) (2024-08-05T08:46:46Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。