論文の概要: MalGuard: Towards Real-Time, Accurate, and Actionable Detection of Malicious Packages in PyPI Ecosystem
- arxiv url: http://arxiv.org/abs/2506.14466v1
- Date: Tue, 17 Jun 2025 12:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.468149
- Title: MalGuard: Towards Real-Time, Accurate, and Actionable Detection of Malicious Packages in PyPI Ecosystem
- Title(参考訳): MalGuard: PyPIエコシステムにおける悪意パッケージのリアルタイム,正確な,かつ実行可能な検出を目指して
- Authors: Xingan Gao, Xiaobing Sun, Sicong Cao, Kaifeng Huang, Di Wu, Xiaolei Liu, Xingwei Lin, Yang Xiang,
- Abstract要約: PyPIの安全性と安定性を確保する上で、悪意あるパッケージ検出が重要な課題となっている。
既存の検出アプローチは、従来の機械学習(ML)モデルから大規模言語モデル(LLM)へと進化する、モデル選択の進歩に重点を置いている。
グラフ中心性解析とLIME(Local Interpretable Model-Agnostic Explanations)アルゴリズムに基づくMalGuard手法を提案する。
- 参考スコア(独自算出の注目度): 11.834078597426409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Malicious package detection has become a critical task in ensuring the security and stability of the PyPI. Existing detection approaches have focused on advancing model selection, evolving from traditional machine learning (ML) models to large language models (LLMs). However, as the complexity of the model increases, the time consumption also increases, which raises the question of whether a lightweight model achieves effective detection. Through empirical research, we demonstrate that collecting a sufficiently comprehensive feature set enables even traditional ML models to achieve outstanding performance. However, with the continuous emergence of new malicious packages, considerable human and material resources are required for feature analysis. Also, traditional ML model-based approaches lack of explainability to malicious packages.Therefore, we propose a novel approach MalGuard based on graph centrality analysis and the LIME (Local Interpretable Model-agnostic Explanations) algorithm to detect malicious packages.To overcome the above two challenges, we leverage graph centrality analysis to extract sensitive APIs automatically to replace manual analysis. To understand the sensitive APIs, we further refine the feature set using LLM and integrate the LIME algorithm with ML models to provide explanations for malicious packages. We evaluated MalGuard against six SOTA baselines with the same settings. Experimental results show that our proposed MalGuard, improves precision by 0.5%-33.2% and recall by 1.8%-22.1%. With MalGuard, we successfully identified 113 previously unknown malicious packages from a pool of 64,348 newly-uploaded packages over a five-week period, and 109 out of them have been removed by the PyPI official.
- Abstract(参考訳): PyPIの安全性と安定性を確保する上で、悪意あるパッケージ検出が重要な課題となっている。
既存の検出アプローチは、従来の機械学習(ML)モデルから大規模言語モデル(LLM)へと進化する、モデル選択の進歩に重点を置いている。
しかし、モデルの複雑さが増大するにつれて、時間消費も増加し、軽量モデルが効果的な検出を実現するかどうかという疑問が持ち上がる。
実験的な研究を通じて、十分に包括的な機能セットの収集によって、従来のMLモデルでさえも優れた性能を達成できることを実証する。
しかし、新しい悪意あるパッケージの継続的な出現に伴い、機能解析にはかなりの人的資源と材料資源が必要である。
また、従来のMLモデルベースアプローチでは、悪意のあるパッケージに対する説明責任が欠如しているため、従来は、グラフ中心性分析に基づく新しいアプローチであるMalGuardと、悪意のあるパッケージを検出するLIMEアルゴリズムを提案しており、上記の2つの課題を克服するために、グラフ中心性分析を活用して、機密APIを自動的に抽出し、手動分析を置き換える。
センシティブなAPIを理解するため、LLMを用いて機能セットをさらに洗練し、LIMEアルゴリズムをMLモデルに統合し、悪意のあるパッケージの説明を提供する。
同じ設定で6つのSOTAベースラインに対してMalGuardを評価した。
実験の結果,提案したMalGuardの精度は0.5%~33.2%,リコール率1.8%~22.1%向上した。
MalGuardでは、5週間の期間に64,348個の新しくアップロードされたパッケージのプールから、これまで未知の悪質パッケージを113個特定し、そのうち109個がPyPIのオフィシャルによって削除されました。
関連論文リスト
- Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Detecting Malicious Source Code in PyPI Packages with LLMs: Does RAG Come in Handy? [6.7341750484636975]
PyPIのようなオープンソースのエコシステムにおける悪意あるソフトウェアパッケージは、セキュリティ上のリスクを増大させる。
本研究では,Large Language Models (LLM) とRetrieval-Augmented Generation (RAG) の有効性を実証的に評価する。
論文 参考訳(メタデータ) (2025-04-18T16:11:59Z) - Analysis of Zero Day Attack Detection Using MLP and XAI [0.0]
本稿では、侵入検知システム(IDS)を構築するための機械学習(ML)とディープラーニング(DL)に基づくアプローチについて分析する。
KDD99データセットは、ゼロデイ攻撃を検出するために、すべてのデータセットの中で最も研究されている。
ベースラインMLモデル,重み付きMLモデル,重み付きMLモデル,重み付きMLモデルを含む,KDD99データセット上でトレーニングされた4層パーセプトロン(MLP)の性能を評価する。
論文 参考訳(メタデータ) (2025-01-28T02:20:34Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Anomaly Detection for Incident Response at Scale [1.284857579394658]
我々は、Walmartのビジネスとシステムの状態をリアルタイムで監視する、機械学習ベースの異常検出製品を提案する。
3ヶ月にわたる検証の間、製品は3000以上のモデルから25以上のアプリケーション、プラットフォーム、運用チームへの予測を提供した。
AIDRは、検出にかかる時間が少なく、従来の方法よりも偽陽性が少ない、さまざまな社内チームで成功している。
論文 参考訳(メタデータ) (2024-04-24T00:46:19Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Data-Free Hard-Label Robustness Stealing Attack [67.41281050467889]
本稿では,Data-Free Hard-Label Robustness Stealing(DFHL-RS)攻撃について紹介する。
ターゲットモデルのハードラベルをクエリするだけで、モデル精度とロバスト性の両方を盗むことができる。
本手法は,AutoAttackに対して77.86%,頑健な39.51%の精度を実現する。
論文 参考訳(メタデータ) (2023-12-10T16:14:02Z) - Semi-supervised Classification of Malware Families Under Extreme Class Imbalance via Hierarchical Non-Negative Matrix Factorization with Automatic Model Selection [34.7994627734601]
マルウェアファミリーラベリングプロセスの初期段階で使用できる新しい階層型半教師付きアルゴリズムを提案する。
HNMFkでは、マルウェアデータの階層構造と半教師付き設定を併用し、極度のクラス不均衡の条件下でマルウェアファミリーを分類することができる。
我々のソリューションは、新しいマルウェアファミリーの同定において有望な結果をもたらす、断固とした予測または拒絶オプションを実行することができる。
論文 参考訳(メタデータ) (2023-09-12T23:45:59Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Robusta: Robust AutoML for Feature Selection via Reinforcement Learning [24.24652530951966]
強化学習(RL)に基づく初の堅牢なAutoMLフレームワークRobostaを提案します。
このフレームワークは,良性サンプルの競争精度を維持しつつ,モデルロバスト性を最大22%向上させることができることを示す。
論文 参考訳(メタデータ) (2021-01-15T03:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。