論文の概要: Mind the Gap: Evaluating LLMs for High-Level Malicious Package Detection vs. Fine-Grained Indicator Identification
- arxiv url: http://arxiv.org/abs/2602.16304v1
- Date: Wed, 18 Feb 2026 09:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.560796
- Title: Mind the Gap: Evaluating LLMs for High-Level Malicious Package Detection vs. Fine-Grained Indicator Identification
- Title(参考訳): Mind the Gap: High-Level Malicious Package Detection vs. Fine-Grained Indicator IdentificationのためのLCMの評価
- Authors: Ahmed Ryan, Ibrahim Khalil, Abdullah Al Jahid, Md Erfan, Akond Ashfaque Ur Rahman, Md Rayhanur Rahman,
- Abstract要約: 大きな言語モデル(LLM)が自動セキュリティタスクのための有望なツールとして登場した。
本稿では,悪意のあるソフトウェアパッケージを検出するために,13個のLSMを体系的に評価する。
- 参考スコア(独自算出の注目度): 1.1103813686369686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevalence of malicious packages in open-source repositories, such as PyPI, poses a critical threat to the software supply chain. While Large Language Models (LLMs) have emerged as a promising tool for automated security tasks, their effectiveness in detecting malicious packages and indicators remains underexplored. This paper presents a systematic evaluation of 13 LLMs for detecting malicious software packages. Using a curated dataset of 4,070 packages (3,700 benign and 370 malicious), we evaluate model performance across two tasks: binary classification (package detection) and multi-label classification (identification of specific malicious indicators). We further investigate the impact of prompting strategies, temperature settings, and model specifications on detection accuracy. We find a significant "granularity gap" in LLMs' capabilities. While GPT-4.1 achieves near-perfect performance in binary detection (F1 $\approx$ 0.99), performance degrades by approximately 41\% when the task shifts to identifying specific malicious indicators. We observe that general models are best for filtering out the majority of threats, while specialized coder models are better at detecting attacks that follow a strict, predictable code structure. Our correlation analysis indicates that parameter size and context width have negligible explanatory power regarding detection accuracy. We conclude that while LLMs are powerful detectors at the package level, they lack the semantic depth required for precise identification at the granular indicator level.
- Abstract(参考訳): PyPIのようなオープンソースのリポジトリにおける悪意あるパッケージの出現は、ソフトウェアサプライチェーンに重大な脅威をもたらす。
大規模言語モデル(LLM)は自動セキュリティタスクのための有望なツールとして登場したが、悪意のあるパッケージやインジケータを検出する効果はいまだ検討されていない。
本稿では,悪意のあるソフトウェアパッケージを検出するために,13個のLSMを体系的に評価する。
我々は,4,070個のパッケージ(3,700個の良性および370個の悪意)のキュレートされたデータセットを用いて,バイナリ分類(パッケージ検出)とマルチラベル分類(特定の悪意のある指標の識別)の2つのタスクにわたるモデル性能を評価する。
さらに, 検出精度に及ぼす戦略, 温度設定, モデル仕様の影響について検討する。
LLMの能力には大きな"粒度ギャップ"がある。
GPT-4.1はバイナリ検出においてほぼ完全な性能を達成するが(F1 $\approx$ 0.99)、タスクが特定の悪意のある指標にシフトすると、パフォーマンスはおよそ41\%低下する。
一般的なモデルは脅威の大部分をフィルタリングするのに最適であるのに対して、特殊なコーダモデルは厳格で予測可能なコード構造に従う攻撃を検出するのに優れています。
相関分析により,パラメータサイズとコンテキスト幅は,検出精度に関する説明力は無視できることがわかった。
我々は,LSMはパッケージレベルでは強力な検出器であるが,粒度インジケータレベルでの正確な識別に必要な意味的深度は欠如していると結論付けた。
関連論文リスト
- When Benchmarks Lie: Evaluating Malicious Prompt Classifiers Under True Distribution Shift [0.0]
有害なリクエスト、ジェイルブレイク、間接的なプロンプトインジェクション、抽出攻撃にまたがる18のデータセットのベンチマークを用いて、包括的な分析を行う。
我々は,真のアウト・オブ・ディストリビューションの一般化を評価するために,LODO(Leave-One-Dataset-Out)評価を提案する。
論文 参考訳(メタデータ) (2026-02-15T14:21:43Z) - Bridging Expert Reasoning and LLM Detection: A Knowledge-Driven Framework for Malicious Packages [10.858565849895314]
NPMやPyPIといったオープンソースエコシステムは、サプライチェーン攻撃によってますます標的になってきている。
我々は、専門家による解析的推論を自動化された悪意のあるパッケージ検出に統合する、検索強化世代(RAG)ベースのフレームワークであるIntelGuardを紹介する。
論文 参考訳(メタデータ) (2026-01-23T05:31:12Z) - Many Hands Make Light Work: An LLM-based Multi-Agent System for Detecting Malicious PyPI Packages [3.7667883869699597]
PyPIのようなオープンソースリポジトリの悪意のあるコードは、ソフトウェアサプライチェーンに対する脅威が増大している。
本稿では,悪質なPyPIパッケージを検出するために協調言語モデルを用いたマルチエージェントシステムであるLAMPSを提案する。
論文 参考訳(メタデータ) (2026-01-17T19:43:22Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Detecting Malicious Source Code in PyPI Packages with LLMs: Does RAG Come in Handy? [6.7341750484636975]
PyPIのようなオープンソースのエコシステムにおける悪意あるソフトウェアパッケージは、セキュリティ上のリスクを増大させる。
本研究では,Large Language Models (LLM) とRetrieval-Augmented Generation (RAG) の有効性を実証的に評価する。
論文 参考訳(メタデータ) (2025-04-18T16:11:59Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。