論文の概要: Breaking Obfuscation: Cluster-Aware Graph with LLM-Aided Recovery for Malicious JavaScript Detection
- arxiv url: http://arxiv.org/abs/2507.22447v1
- Date: Wed, 30 Jul 2025 07:46:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.075604
- Title: Breaking Obfuscation: Cluster-Aware Graph with LLM-Aided Recovery for Malicious JavaScript Detection
- Title(参考訳): 難読化: LLM支援による不正なJavaScript検出のためのクラスタ対応グラフ
- Authors: Zhihong Liang, Xin Wang, Zhenhuang Hu, Liangliang Song, Lin Chen, Jingjing Guo, Yanbin Wang, Ye Tian,
- Abstract要約: 悪意あるJavaScriptコードは、ユーザのプライバシ、システム整合性、エンタープライズセキュリティに重大な脅威をもたらす。
大規模言語モデル(LLM)に基づく難読化とコードグラフ学習を組み合わせたハイブリッドディフェンスフレームワークであるDeCodaを提案する。
- 参考スコア(独自算出の注目度): 9.83040332336481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid expansion of web-based applications and cloud services, malicious JavaScript code continues to pose significant threats to user privacy, system integrity, and enterprise security. But, detecting such threats remains challenging due to sophisticated code obfuscation techniques and JavaScript's inherent language characteristics, particularly its nested closure structures and syntactic flexibility. In this work, we propose DeCoda, a hybrid defense framework that combines large language model (LLM)-based deobfuscation with code graph learning: (1) We first construct a sophisticated prompt-learning pipeline with multi-stage refinement, where the LLM progressively reconstructs the original code structure from obfuscated inputs and then generates normalized Abstract Syntax Tree (AST) representations; (2) In JavaScript ASTs, dynamic typing scatters semantically similar nodes while deeply nested functions fracture scope capturing, introducing structural noise and semantic ambiguity. To address these challenges, we then propose to learn hierarchical code graph representations via a Cluster-wise Graph that synergistically integrates graph transformer network, node clustering, and node-to-cluster attention to simultaneously capture both local node-level semantics and global cluster-induced structural relationships from AST graph. Experimental results demonstrate that our method achieves F1-scores of 94.64% and 97.71% on two benchmark datasets, demonstrating absolute improvements of 10.74% and 13.85% over state-of-the-art baselines. In false-positive control evaluation at fixed FPR levels (0.0001, 0.001, 0.01), our approach delivers 4.82, 5.91, and 2.53 higher TPR respectively compared to the best-performing baseline. These results highlight the effectiveness of LLM-based deobfuscation and underscore the importance of modeling cluster-level relationships in detecting malicious code.
- Abstract(参考訳): Webベースのアプリケーションとクラウドサービスの急速な拡張により、悪意のあるJavaScriptコードは、ユーザのプライバシ、システム整合性、エンタープライズセキュリティに重大な脅威を与え続けている。
しかし、高度なコード難読化技術とJavaScript固有の言語特性、特にネストされたクロージャ構造と構文的柔軟性のために、そのような脅威を検出することは依然として難しい。
本研究では,大規模言語モデル(LLM)に基づく難読化とコードグラフ学習を組み合わせたハイブリッド・ディフェンス・フレームワークであるDeCodaを提案する。(1) LLMは難読化入力から元のコード構造を段階的に再構築し,次に正規化された抽象構文木(AST)表現を生成する。(2) JavaScript ASTでは,動的型付けが意味論的に類似したノードを散布し,機能的スコープをキャプチャし,構造的ノイズやセマンティックなあいまいさを導入する。
これらの課題に対処するため、我々はクラスタワイズグラフを用いて階層的なコードグラフ表現を学習し、ASTグラフから局所ノードレベルのセマンティクスとグローバルクラスタによる構造的関係を同時に捉えるために、グラフトランスフォーマーネットワーク、ノードクラスタリング、ノードからクラスタへの注意を相乗的に統合することを提案する。
実験の結果、2つのベンチマークデータセットで94.64%と97.71%のF1スコアを達成し、最先端のベースラインに対して10.74%と13.85%の絶対的な改善を示した。
固定されたFPRレベル(0.0001, 0.001, 0.01)における偽陽性制御評価では, それぞれ4.82, 5.91, 2.53高TPRを, 最高性能のベースラインと比較した。
これらの結果はLLMに基づく難読化の有効性を強調し、悪意のあるコードの検出においてクラスタレベルの関係をモデル化することの重要性を強調している。
関連論文リスト
- Obfuscation-Resilient Binary Code Similarity Analysis using Dominance Enhanced Semantic Graph [11.549110908614873]
ORCASは、支配強化セマンティックグラフ(DESG)に基づく難燃性BCSAモデルである
我々は,支配強化セマンティックグラフ(DESG)に基づく難易度回復型BCSAモデルであるORCASを開発する。
論文 参考訳(メタデータ) (2025-06-06T15:26:53Z) - GNN-Coder: Boosting Semantic Code Retrieval with Combined GNNs and Transformer [15.991615273248804]
抽象構文木(AST)を利用するグラフニューラルネットワーク(GNN)に基づく新しいフレームワークであるGNN-Coderを紹介する。
GNN-Coderは、CSNデータセットのMRRが1%-10%改善され、CosQAデータセットのゼロショットパフォーマンスが20%向上するなど、検索パフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2025-02-21T04:29:53Z) - Leveraging Joint Predictive Embedding and Bayesian Inference in Graph Self Supervised Learning [0.0]
グラフ表現学習は、ノード分類やリンク予測といったタスクの基盤として登場した。
現在の自己教師付き学習(SSL)手法は、計算の非効率性、対照的な目的への依存、表現の崩壊といった課題に直面している。
本稿では,意味情報と構造情報を保存しながら,対照的な目的と負のサンプリングを排除したグラフSSLのための新しい結合埋め込み予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-02T07:42:45Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。