Fugu-MT 論文翻訳(概要): Breaking Obfuscation: Cluster-Aware Graph with LLM-Aided Recovery for Malicious JavaScript Detection

論文の概要: Breaking Obfuscation: Cluster-Aware Graph with LLM-Aided Recovery for Malicious JavaScript Detection

arxiv url: http://arxiv.org/abs/2507.22447v1
Date: Wed, 30 Jul 2025 07:46:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-31 16:14:18.075604
Title: Breaking Obfuscation: Cluster-Aware Graph with LLM-Aided Recovery for Malicious JavaScript Detection
Title（参考訳）: 難読化: LLM支援による不正なJavaScript検出のためのクラスタ対応グラフ
Authors: Zhihong Liang, Xin Wang, Zhenhuang Hu, Liangliang Song, Lin Chen, Jingjing Guo, Yanbin Wang, Ye Tian,
Abstract要約: 悪意あるJavaScriptコードは、ユーザのプライバシ、システム整合性、エンタープライズセキュリティに重大な脅威をもたらす。大規模言語モデル(LLM)に基づく難読化とコードグラフ学習を組み合わせたハイブリッドディフェンスフレームワークであるDeCodaを提案する。
参考スコア（独自算出の注目度）: 9.83040332336481
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid expansion of web-based applications and cloud services, malicious JavaScript code continues to pose significant threats to user privacy, system integrity, and enterprise security. But, detecting such threats remains challenging due to sophisticated code obfuscation techniques and JavaScript's inherent language characteristics, particularly its nested closure structures and syntactic flexibility. In this work, we propose DeCoda, a hybrid defense framework that combines large language model (LLM)-based deobfuscation with code graph learning: (1) We first construct a sophisticated prompt-learning pipeline with multi-stage refinement, where the LLM progressively reconstructs the original code structure from obfuscated inputs and then generates normalized Abstract Syntax Tree (AST) representations; (2) In JavaScript ASTs, dynamic typing scatters semantically similar nodes while deeply nested functions fracture scope capturing, introducing structural noise and semantic ambiguity. To address these challenges, we then propose to learn hierarchical code graph representations via a Cluster-wise Graph that synergistically integrates graph transformer network, node clustering, and node-to-cluster attention to simultaneously capture both local node-level semantics and global cluster-induced structural relationships from AST graph. Experimental results demonstrate that our method achieves F1-scores of 94.64% and 97.71% on two benchmark datasets, demonstrating absolute improvements of 10.74% and 13.85% over state-of-the-art baselines. In false-positive control evaluation at fixed FPR levels (0.0001, 0.001, 0.01), our approach delivers 4.82, 5.91, and 2.53 higher TPR respectively compared to the best-performing baseline. These results highlight the effectiveness of LLM-based deobfuscation and underscore the importance of modeling cluster-level relationships in detecting malicious code.
Abstract（参考訳）: Webベースのアプリケーションとクラウドサービスの急速な拡張により、悪意のあるJavaScriptコードは、ユーザのプライバシ、システム整合性、エンタープライズセキュリティに重大な脅威を与え続けている。しかし、高度なコード難読化技術とJavaScript固有の言語特性、特にネストされたクロージャ構造と構文的柔軟性のために、そのような脅威を検出することは依然として難しい。本研究では,大規模言語モデル(LLM)に基づく難読化とコードグラフ学習を組み合わせたハイブリッド・ディフェンス・フレームワークであるDeCodaを提案する。(1) LLMは難読化入力から元のコード構造を段階的に再構築し,次に正規化された抽象構文木(AST)表現を生成する。(2) JavaScript ASTでは,動的型付けが意味論的に類似したノードを散布し,機能的スコープをキャプチャし,構造的ノイズやセマンティックなあいまいさを導入する。これらの課題に対処するため、我々はクラスタワイズグラフを用いて階層的なコードグラフ表現を学習し、ASTグラフから局所ノードレベルのセマンティクスとグローバルクラスタによる構造的関係を同時に捉えるために、グラフトランスフォーマーネットワーク、ノードクラスタリング、ノードからクラスタへの注意を相乗的に統合することを提案する。実験の結果、2つのベンチマークデータセットで94.64%と97.71%のF1スコアを達成し、最先端のベースラインに対して10.74%と13.85%の絶対的な改善を示した。固定されたFPRレベル(0.0001, 0.001, 0.01)における偽陽性制御評価では, それぞれ4.82, 5.91, 2.53高TPRを, 最高性能のベースラインと比較した。これらの結果はLLMに基づく難読化の有効性を強調し、悪意のあるコードの検出においてクラスタレベルの関係をモデル化することの重要性を強調している。

関連論文リスト

AST-Enhanced or AST-Overloaded? The Surprising Impact of Hybrid Graph Representations on Code Clone Detection [0.0]
コードクローンはソフトウェアのメンテナンスコストを大幅に増加させ、脆弱性リスクを高める。 ASTは、その正確な構文構造表現により、ディープラーニングベースのコードクローン検出を支配している。近年の研究では、ASTベースの表現をセマンティックグラフで豊かにすることでこの問題に対処している。
論文参考訳（メタデータ） (2025-06-17T12:35:17Z)
Obfuscation-Resilient Binary Code Similarity Analysis using Dominance Enhanced Semantic Graph [11.549110908614873]
ORCASは、支配強化セマンティックグラフ(DESG)に基づく難燃性BCSAモデルである我々は,支配強化セマンティックグラフ(DESG)に基づく難易度回復型BCSAモデルであるORCASを開発する。
論文参考訳（メタデータ） (2025-06-06T15:26:53Z)
Secret Breach Detection in Source Code with Large Language Models [2.5484785866796833]
ソースコードに機密情報を漏洩することは、依然として永続的なセキュリティ上の脅威である。この研究は、大規模言語モデル(LLM)を用いたソースコードの秘密検出を強化することを目的としている。局所展開のための細調整された小型モデルの実現可能性を評価する。
論文参考訳（メタデータ） (2025-04-26T03:33:14Z)
GNN-Coder: Boosting Semantic Code Retrieval with Combined GNNs and Transformer [15.991615273248804]
抽象構文木(AST)を利用するグラフニューラルネットワーク(GNN)に基づく新しいフレームワークであるGNN-Coderを紹介する。 GNN-Coderは、CSNデータセットのMRRが1%-10%改善され、CosQAデータセットのゼロショットパフォーマンスが20%向上するなど、検索パフォーマンスを著しく向上させる。
論文参考訳（メタデータ） (2025-02-21T04:29:53Z)
Leveraging Joint Predictive Embedding and Bayesian Inference in Graph Self Supervised Learning [0.0]
グラフ表現学習は、ノード分類やリンク予測といったタスクの基盤として登場した。現在の自己教師付き学習(SSL)手法は、計算の非効率性、対照的な目的への依存、表現の崩壊といった課題に直面している。本稿では,意味情報と構造情報を保存しながら,対照的な目的と負のサンプリングを排除したグラフSSLのための新しい結合埋め込み予測フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-02T07:42:45Z)
Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-10-09T15:02:28Z)
FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文参考訳（メタデータ） (2024-03-27T09:45:33Z)
UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文参考訳（メタデータ） (2024-02-12T19:39:26Z)
Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。比較すると,本手法はより汎用的で有効である。
論文参考訳（メタデータ） (2023-03-11T08:42:40Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
Software Vulnerability Detection via Deep Learning over Disaggregated Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文参考訳（メタデータ） (2021-09-07T21:24:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。