論文の概要: A Decompilation-Driven Framework for Malware Detection with Large Language Models
- arxiv url: http://arxiv.org/abs/2601.09035v1
- Date: Wed, 14 Jan 2026 00:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.198523
- Title: A Decompilation-Driven Framework for Malware Detection with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたマルウェア検出のための逆コンパイル駆動フレームワーク
- Authors: Aniesh Chawla, Udbhav Prasad,
- Abstract要約: 本稿では,大規模言語モデル (LLM) が,実行可能コードを良性か悪性かのどちらかとして分類する際の有効性を評価する。
Ghidra disassemblerを使って、最初にWindows実行ファイルをCコードに分解する自動パイプラインを導入する。
我々は、キュレートされたマルウェアと良質なデータセットに基づいて訓練された微調整モデルが、バニラモデルよりも大幅に優れていることを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The parallel evolution of Large Language Models (LLMs) with advanced code-understanding capabilities and the increasing sophistication of malware presents a new frontier for cybersecurity research. This paper evaluates the efficacy of state-of-the-art LLMs in classifying executable code as either benign or malicious. We introduce an automated pipeline that first decompiles Windows executable into a C code using Ghidra disassembler and then leverages LLMs to perform the classification. Our evaluation reveals that while standard LLMs show promise, they are not yet robust enough to replace traditional anti-virus software. We demonstrate that a fine-tuned model, trained on curated malware and benign datasets, significantly outperforms its vanilla counterpart. However, the performance of even this specialized model degrades notably when encountering newer malware. This finding demonstrates the critical need for continuous fine-tuning with emerging threats to maintain model effectiveness against the changing coding patterns and behaviors of malicious software.
- Abstract(参考訳): 先進的なコード理解能力とマルウェアの高度化によるLLM(Large Language Models)の並列進化は、サイバーセキュリティ研究の新たなフロンティアとなる。
本稿では,実行可能コードを良性か悪性かのどちらかとして分類する上で,最先端のLCMの有効性を評価する。
我々はまず、Ghidra disassemblerを使ってWindows実行ファイルをCコードに分解し、LLMを活用して分類を行う自動パイプラインを導入する。
我々の評価では、標準のLSMは有望であるが、従来のアンチウイルスソフトウェアを置き換えるほど堅牢ではない。
我々は、キュレートされたマルウェアと良質なデータセットに基づいて訓練された微調整モデルが、バニラモデルよりも大幅に優れていることを実証した。
しかし、この特殊なモデルでさえ、新しいマルウェアに遭遇した場合に顕著に性能が低下する。
この発見は、悪意のあるソフトウェアのコーディングパターンや振る舞いを変えることに対するモデルの有効性を維持するために、新たな脅威と連続的な微調整の必要性を証明している。
関連論文リスト
- Patching LLM Like Software: A Lightweight Method for Improving Safety Policy in Large Language Models [63.54707418559388]
ソフトウェアバージョンのような大型言語モデル(LLM)に対するパッチを提案する。
提案手法は,既存のモデルにコンパクトで学習可能なプレフィックスを前もって,迅速な修復を可能にする。
論文 参考訳(メタデータ) (2025-11-11T17:25:44Z) - Context-Guided Decompilation: A Step Towards Re-executability [50.71992919223209]
バイナリ逆コンパイルは、ソフトウェアセキュリティ分析、リバースエンジニアリング、マルウェア理解において重要な役割を果たす。
大規模言語モデル (LLMs) の最近の進歩により、ニューラルデコンパイルが可能になったが、生成されたコードは一般的に意味論的にのみ使用可能である。
In-context Learning(ICL)を活用して,再実行可能なソースコードを生成するためのILC4Decompを提案する。
論文 参考訳(メタデータ) (2025-11-03T17:21:39Z) - BEACON: Behavioral Malware Classification with Large Language Model Embeddings and Deep Learning [0.21485350418225244]
従来の静的解析は、コードの難読化、ポリモーフィズム、その他の回避技術を用いた現代の脅威に対して防御に失敗する。
本研究では,大規模言語モデル(LLM)を利用した新しいディープラーニングフレームワークBEACONを提案する。
これらの埋め込みは、各サンプルのセマンティックおよび構造パターンをキャプチャし、マルチクラスのマルウェア分類のための1次元畳み込みニューラルネットワーク(1D CNN)によって処理される。
論文 参考訳(メタデータ) (2025-09-18T01:24:12Z) - LLMalMorph: On The Feasibility of Generating Variant Malware using Large-Language-Models [10.777856888013469]
大規模言語モデル(LLM)は、ソフトウェア開発と自動コード生成を変革した。
LLMalMorphは、意味的および構文的コード理解を利用して、新しいマルウェアの変種を生成するフレームワークである。
実験により, LLMalMorph変異体は抗ウイルスエンジンを効果的に回避でき, 典型的な検出率を10~15%削減できることが示された。
論文 参考訳(メタデータ) (2025-07-12T22:11:10Z) - MGC: A Compiler Framework Exploiting Compositional Blindness in Aligned LLMs for Malware Generation [22.29476520010842]
大規模言語モデル(LLM)はソフトウェア開発を民主化し、複雑なアプリケーションをプログラミングする際の専門知識の障壁を減らした。
このアクセシビリティは、悪意のあるソフトウェア開発にまで拡張され、重大なセキュリティ上の懸念がもたらされる。
本稿では,モジュール分解とアライメント回避生成を通じて,この脆弱性を活用する新しいフレームワークであるMalware Generation Compiler(MGC)を紹介する。
論文 参考訳(メタデータ) (2025-07-02T18:00:49Z) - Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。
本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:27:59Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Evading Malware Classifiers via Monte Carlo Mutant Feature Discovery [23.294653273180472]
悪意のあるアクターが代理モデルを訓練して、インスタンスが誤分類される原因となるバイナリ変異を発見する方法を示す。
そして、変異したマルウェアが、抗ウイルスAPIの代わりとなる被害者モデルに送られ、検出を回避できるかどうかをテストする。
論文 参考訳(メタデータ) (2021-06-15T03:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。