論文の概要: AsmRAG: LLM-Driven Malware Detection by Retrieving Functionally Similar Assembly Code
- arxiv url: http://arxiv.org/abs/2604.23196v1
- Date: Sat, 25 Apr 2026 08:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.205577
- Title: AsmRAG: LLM-Driven Malware Detection by Retrieving Functionally Similar Assembly Code
- Title(参考訳): AsmRAG:機能的類似アセンブリコード検索によるLLM駆動型マルウェア検出
- Authors: ElMouatez Billah Karbab,
- Abstract要約: 本稿では,AsmRAGについて紹介する。
このシステムは、LLM(Code-specialized Large Language Model)を使用してアセンブリ関数を分析し、それらをセマンティックな埋め込みに変換する。
そこで本研究では,バイナリ内の悪意論理の一次単位を分離し,検証可能な法医学的証拠を抽出し,回避の試みに抵抗する密度重み付きアンカー選択機構を提案する。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning malware detectors achieve high classification accuracy but suffer from severe interpretability limitations, typically returning probabilistic verdicts that lack forensic context. We introduce AsmRAG, a framework performing malware analysis through Assembly-Level Retrieval-Augmented Generation. Unlike classifiers built on global statistical features, AsmRAG reformulates detection as an evidence-based retrieval task. The system uses a code-specialized Large Language Model (LLM) to analyze assembly functions and convert them into semantic embeddings. This process constructs a searchable knowledge base resilient to syntactic obfuscation. For inference, we propose a Density-Weighted Anchor Selection mechanism that isolates the primary unit of malicious logic within a binary to extract verifiable forensic evidence and resist evasion attempts. Testing on a curated dataset of 40k binaries shows AsmRAG reaching a detection F1-score of 96% alongside a family attribution F1-score of 95%. Comparisons confirm this semantic retrieval approach remains robust against metamorphic obfuscation. When holistic baselines (EMBER and ResNeXt) degrade, our methodology gives Security Operations Centers a transparent and reliable alternative.
- Abstract(参考訳): ディープラーニングマルウェア検出器は高い分類精度を達成するが、厳密な解釈可能性の限界に悩まされ、典型的には法医学的な文脈に欠ける確率的検証を返す。
本稿では,AsmRAGについて紹介する。
グローバルな統計特徴に基づく分類器とは異なり、AsmRAGはエビデンスベースの検索タスクとして検出を再構成する。
このシステムは、LLM(Code-specialized Large Language Model)を使用してアセンブリ関数を分析し、それらをセマンティックな埋め込みに変換する。
このプロセスは、構文難読化に耐性のある検索可能な知識ベースを構築する。
そこで本研究では,バイナリ内の悪意論理の一次単位を分離し,検証可能な法医学的証拠を抽出し,回避の試みに抵抗する密度重み付きアンカー選択機構を提案する。
40kバイナリのキュレートされたデータセットのテストでは、AsmRAGが検出F1スコアの96%に達し、家族帰属F1スコアの95%に達した。
比較により、この意味検索アプローチは変成的難読化に対して頑健であることが確認されている。
包括的ベースライン(EMBERとResNeXt)が劣化すると、我々の手法はSecurity Operations Centerに透過的で信頼性の高い代替手段を与えます。
関連論文リスト
- Towards Certified Malware Detection: Provable Guarantees Against Evasion Attacks [2.1089036160341688]
本稿では,特徴アブレーションとターゲットノイズ注入によるランダムな平滑化に基づく,確実な堅牢なマルウェア検出フレームワークを提案する。
特徴空間摂動に対する特定の半径内での堅牢性を保証する正式な証明書を導出する。
論文 参考訳(メタデータ) (2026-04-22T12:26:46Z) - Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection [105.14032334647932]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調している。
MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、オーバーフィットしがちな複雑なモデルベース法よりも実用的であることが多い。
本稿では,2つのコンテキスト検出スコアの関係をモデル化したマルコフ情報を用いたスコアキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2026-02-08T16:06:12Z) - Immunity memory-based jailbreak detection: multi-agent adaptive guard for large language models [12.772312329709868]
大規模言語モデル(LLM)はAIシステムの基盤となっているが、敵のジェイルブレイク攻撃に弱いままである。
ジェイルブレイク検出のためのマルチエージェント適応ガード(MAAG)フレームワークを提案する。
MAAGはまず、入力プロンプトからアクティベーション値を抽出し、メモリバンクに格納された履歴アクティベーションと比較して、迅速な予備検出を行う。
論文 参考訳(メタデータ) (2025-12-03T01:40:40Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - TraceRAG: A LLM-Based Framework for Explainable Android Malware Detection and Behavior Analysis [8.977634735108895]
本稿では,TraceRAGを紹介した。TraceRAGは,マルウェアの検出と解析を行うための検索拡張世代(RAG)フレームワークである。
まず、TraceRAGは、ベクトルデータベースにインデックスされたメソッドレベルのコードスニペットの要約を生成する。
クエリ時に、行動に焦点を当てた質問は、より深い検査のために最も意味のあるスニペットを検索する。
最後に、マルチターン解析結果に基づいて、TraceRAGは、識別された悪意のある振る舞いとその対応するコード実装を示す人間可読レポートを生成する。
論文 参考訳(メタデータ) (2025-09-10T06:07:12Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。