論文の概要: Cutting the Gordian Knot: Detecting Malicious PyPI Packages via a Knowledge-Mining Framework
- arxiv url: http://arxiv.org/abs/2601.16463v1
- Date: Fri, 23 Jan 2026 05:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.555517
- Title: Cutting the Gordian Knot: Detecting Malicious PyPI Packages via a Knowledge-Mining Framework
- Title(参考訳): ゴーディアン結び目:知識マイニングフレームワークによる悪意のあるPyPIパッケージの検出
- Authors: Wenbo Guo, Chengwei Liu, Ming Kang, Yiran Zhang, Jiahui Wu, Zhengzi Xu, Vinay Sachidananda, Yang Liu,
- Abstract要約: Python Package Index(PyPI)は悪意のあるアクターのターゲットとなっている。
現在の検出ツールは偽陽性率15~30%を生成し、不正に正規パッケージの3分の1を悪意のあるものとフラグ付けしている。
我々は,検出障害を有用な行動知識に変換する知識駆動型フレームワークであるPyGuardを提案する。
- 参考スコア(独自算出の注目度): 14.0015860172317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Python Package Index (PyPI) has become a target for malicious actors, yet existing detection tools generate false positive rates of 15-30%, incorrectly flagging one-third of legitimate packages as malicious. This problem arises because current tools rely on simple syntactic rules rather than semantic understanding, failing to distinguish between identical API calls serving legitimate versus malicious purposes. To address this challenge, we propose PyGuard, a knowledge-driven framework that converts detection failures into useful behavioral knowledge by extracting patterns from existing tools' false positives and negatives. Our method utilizes hierarchical pattern mining to identify behavioral sequences that distinguish malicious from benign code, employs Large Language Models to create semantic abstractions beyond syntactic variations, and combines this knowledge into a detection system that integrates exact pattern matching with contextual reasoning. PyGuard achieves 99.50% accuracy with only 2 false positives versus 1,927-2,117 in existing tools, maintains 98.28% accuracy on obfuscated code, and identified 219 previously unknown malicious packages in real-world deployment. The behavioral patterns show cross-ecosystem applicability with 98.07% accuracy on NPM packages, demonstrating that semantic understanding enables knowledge transfer across programming languages.
- Abstract(参考訳): Python Package Index(PyPI)は悪意のあるアクターのターゲットとなっているが、既存の検出ツールは偽陽性率15~30%を生成し、誤って正規パッケージの3分の1を悪意のあるものとしてフラグ付けしている。
問題は、現在のツールがセマンティックな理解よりも単純な構文規則に依存しており、正当な目的と悪意のある目的を兼ね備えた同一のAPI呼び出しを区別できないためである。
この課題に対処するために,既存のツールの偽陽性と負陽性からパターンを抽出し,検出障害を有用な行動知識に変換する,知識駆動型フレームワークであるPyGuardを提案する。
提案手法は階層的なパターンマイニングを用いて,悪意のあるコードと区別する行動列を識別し,大規模言語モデルを用いて構文的変化以外の意味的抽象化を作成し,その知識を文脈的推論と正確なパターンマッチングを統合する検出システムに統合する。
PyGuardは2つの偽陽性で99.50%の精度を達成しており、既存のツールでは1,927-2,117であり、難読化コードの98.28%の精度を維持している。
行動パターンは、NPMパッケージ上で98.07%の精度でクロスエコシステム適用性を示し、セマンティック理解がプログラミング言語間の知識伝達を可能にすることを示した。
関連論文リスト
- Bridging Expert Reasoning and LLM Detection: A Knowledge-Driven Framework for Malicious Packages [10.858565849895314]
NPMやPyPIといったオープンソースエコシステムは、サプライチェーン攻撃によってますます標的になってきている。
我々は、専門家による解析的推論を自動化された悪意のあるパッケージ検出に統合する、検索強化世代(RAG)ベースのフレームワークであるIntelGuardを紹介する。
論文 参考訳(メタデータ) (2026-01-23T05:31:12Z) - Unveiling Malicious Logic: Towards a Statement-Level Taxonomy and Dataset for Securing Python Packages [0.19029675742486804]
既存のデータセットは、パッケージレベルにおいて、パッケージを悪意のあるものまたは良性であるとラベル付けするが、どのステートメントが悪意のある振る舞いを実装しているかは明記しない。
我々は、370の悪意あるPythonパッケージのステートメントレベルデータセットを構築し、2,962のラベル付き悪意のあるインジケータを発生させた。
7つのタイプにまたがる47の悪意のある指標の詳細な分類法を導き、コード内での敵の振る舞いがどのように実装されているかを把握する。
論文 参考訳(メタデータ) (2025-12-14T05:28:30Z) - One Detector Fits All: Robust and Adaptive Detection of Malicious Packages from PyPI to Enterprises [10.03632278118504]
PyPIのようなパブリックリポジトリとエンタープライズエコシステムの両方にシームレスに統合可能な堅牢な検出器を導入します。
強靭性を確保するために, きめ細かいコード難読化を用いた逆パッケージ生成手法を提案する。
私たちの検出器は、PyPIのようなパブリックリポジトリとエンタープライズエコシステムの両方にシームレスに統合することができ、偽陽性をレビューするために数分の非常に低い予算を確保できます。
論文 参考訳(メタデータ) (2025-12-03T23:53:56Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - Killing Two Birds with One Stone: Malicious Package Detection in NPM and PyPI using a Single Model of Malicious Behavior Sequence [8.58275522939837]
パッケージレジストリ NPM と PyPI は悪意のあるパッケージで溢れている。
既存の悪意あるNPMとPyPIパッケージ検出アプローチの有効性は、2つの課題によって妨げられている。
我々は,NPMとPyPIの悪意あるパッケージを検出するためにCerebroを提案し,実装する。
論文 参考訳(メタデータ) (2023-09-06T00:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。