論文の概要: Taint-Based Code Slicing for LLMs-based Malicious NPM Package Detection
- arxiv url: http://arxiv.org/abs/2512.12313v1
- Date: Sat, 13 Dec 2025 12:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.214429
- Title: Taint-Based Code Slicing for LLMs-based Malicious NPM Package Detection
- Title(参考訳): LLMによる悪質NPMパッケージ検出のためのタイトコードスライシング
- Authors: Dang-Khoa Nguyen, Gia-Thang Ho, Quang-Minh Pham, Tuyet A. Dang-Thi, Minh-Khanh Vu, Thanh-Cong Nguyen, Phat T. Tran-Truong, Duc-Ly Vu,
- Abstract要約: 本稿では,LLMをベースとした悪意あるパッケージ検出タスクにおいて,コードスライシング技術を活用する新しいフレームワークを提案する。
バックトラッキング機構によって強化されたnpmパッケージのためのテントベースの特殊スライシング手法を提案する。
5000以上の悪意のあるnpmパッケージのデータセットに対する評価は,我々のアプローチがセキュリティ関連コードを分離し,入力量を99%以上削減していることを示している。
- 参考スコア(独自算出の注目度): 2.398400814870029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing sophistication of malware attacks in the npm ecosystem, characterized by obfuscation and complex logic, necessitates advanced detection methods. Recently, researchers have turned their attention from traditional detection approaches to Large Language Models (LLMs) due to their strong capabilities in semantic code understanding. However, while LLMs offer superior semantic reasoning for code analysis, their practical application is constrained by limited context windows and high computational cost. This paper addresses this challenge by introducing a novel framework that leverages code slicing techniques for an LLM-based malicious package detection task. We propose a specialized taintbased slicing technique for npm packages, augmented by a heuristic backtracking mechanism to accurately capture malicious data flows across asynchronous, event-driven patterns (e.g., callbacks and Promises) that elude traditional analysis. An evaluation on a dataset of more than 5000 malicious and benign npm packages demonstrates that our approach isolates security-relevant code, reducing input volume by over 99% while preserving critical behavioral semantics. Using the DeepSeek-Coder-6.7B model as the classification engine, our approach achieves a detection accuracy of 87.04%, substantially outperforming a naive token-splitting baseline (75.41%) and a traditional static-analysis-based approach. These results indicate that semantically optimized input representation via code slicing not only mitigates the LLM context-window bottleneck but also significantly enhances reasoning precision for security tasks, providing an efficient and effective defense against evolving malicious open-source packages.
- Abstract(参考訳): 難読化と複雑な論理を特徴とするnpmエコシステムにおけるマルウェア攻撃の高度化は、高度な検出方法を必要とする。
近年,従来の検出手法から,意味的コード理解能力の強いLLM(Large Language Models)に注目が向けられている。
しかし、LLMはコード解析に優れたセマンティック推論を提供するが、実際の応用は限られたコンテキストウィンドウと高い計算コストで制約される。
本稿では,LLMをベースとした悪意あるパッケージ検出タスクに対して,コードスライシング技術を活用する新しいフレームワークを導入することで,この問題に対処する。
そこで本研究では,npmパッケージのイベント駆動型パターン(コールバックやPromiseなど)にまたがる悪質なデータフローを正確にキャプチャする,ヒューリスティックなバックトラック機構によって拡張されたテントベースの特殊なスライシング手法を提案する。
5000以上の悪意のあるnpmパッケージと良性なnpmパッケージのデータセットに対する評価は、我々のアプローチがセキュリティ関連コードを分離し、重要な行動意味を保ちながら入力量を99%以上削減することを示した。
分類エンジンとしてDeepSeek-Coder-6.7Bモデルを用い,検出精度87.04%を達成し,トークン分割ベースライン(75.41%)と従来の静的解析に基づくアプローチを大幅に上回った。
これらの結果は,LLMコンテキストウィンドウのボトルネックを緩和するだけでなく,セキュリティタスクの推論精度を大幅に向上させ,悪意あるオープンソースパッケージの進化に対する効率的かつ効果的な防御を可能にすることを示唆している。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - VulSolver: Vulnerability Detection via LLM-Driven Constraint Solving [23.259666449166456]
従来の脆弱性検出方法は、事前定義されたルールマッチングに大きく依存する。
大規模言語モデル(LLM)を用いた制約解決手法を提案する。
VULSOLVERをベンチマークで評価し、精度97.85%、スコア97.97%、リコール100%を達成した。
論文 参考訳(メタデータ) (2025-08-31T14:49:48Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。
本稿では,新しいNLPを用いたインジェクション検出手法を提案する。
階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文 参考訳(メタデータ) (2024-10-28T15:47:03Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。