論文の概要: One Detector Fits All: Robust and Adaptive Detection of Malicious Packages from PyPI to Enterprises
- arxiv url: http://arxiv.org/abs/2512.04338v1
- Date: Wed, 03 Dec 2025 23:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.930673
- Title: One Detector Fits All: Robust and Adaptive Detection of Malicious Packages from PyPI to Enterprises
- Title(参考訳): 1つの検知器: PyPIから企業への悪意パッケージのロバストかつ適応的な検出
- Authors: Biagio Montaruli, Luca Compagna, Serena Elisa Ponta, Davide Balzarotti,
- Abstract要約: PyPIのようなパブリックリポジトリとエンタープライズエコシステムの両方にシームレスに統合可能な堅牢な検出器を導入します。
強靭性を確保するために, きめ細かいコード難読化を用いた逆パッケージ生成手法を提案する。
私たちの検出器は、PyPIのようなパブリックリポジトリとエンタープライズエコシステムの両方にシームレスに統合することができ、偽陽性をレビューするために数分の非常に低い予算を確保できます。
- 参考スコア(独自算出の注目度): 10.03632278118504
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rise of supply chain attacks via malicious Python packages demands robust detection solutions. Current approaches, however, overlook two critical challenges: robustness against adversarial source code transformations and adaptability to the varying false positive rate (FPR) requirements of different actors, from repository maintainers (requiring low FPR) to enterprise security teams (higher FPR tolerance). We introduce a robust detector capable of seamless integration into both public repositories like PyPI and enterprise ecosystems. To ensure robustness, we propose a novel methodology for generating adversarial packages using fine-grained code obfuscation. Combining these with adversarial training (AT) enhances detector robustness by 2.5x. We comprehensively evaluate AT effectiveness by testing our detector against 122,398 packages collected daily from PyPI over 80 days, showing that AT needs careful application: it makes the detector more robust to obfuscations and allows finding 10% more obfuscated packages, but slightly decreases performance on non-obfuscated packages. We demonstrate production adaptability of our detector via two case studies: (i) one for PyPI maintainers (tuned at 0.1% FPR) and (ii) one for enterprise teams (tuned at 10% FPR). In the former, we analyze 91,949 packages collected from PyPI over 37 days, achieving a daily detection rate of 2.48 malicious packages with only 2.18 false positives. In the latter, we analyze 1,596 packages adopted by a multinational software company, obtaining only 1.24 false positives daily. These results show that our detector can be seamlessly integrated into both public repositories like PyPI and enterprise ecosystems, ensuring a very low time budget of a few minutes to review the false positives. Overall, we uncovered 346 malicious packages, now reported to the community.
- Abstract(参考訳): 悪意のあるPythonパッケージによるサプライチェーン攻撃の増加は、堅牢な検出ソリューションを必要とする。
しかし、現在のアプローチでは、2つの重要な課題を見落としている: 敵のソースコード変換に対する堅牢性と、リポジトリメンテナ(低いFPRを要求する)からエンタープライズセキュリティチーム(より高いFPR耐性)まで、異なるアクタの異なる偽陽性率(FPR)要件への適応性である。
PyPIのようなパブリックリポジトリとエンタープライズエコシステムの両方にシームレスに統合可能な堅牢な検出器を導入します。
強靭性を確保するために, きめ細かいコード難読化を用いた逆パッケージ生成手法を提案する。
これらと対戦訓練(AT)を組み合わせることで、検出器の堅牢性は2.5倍向上する。
我々は、80日間にわたってPyPIから収集された122,398パッケージに対して検出装置を試験することにより、ATの有効性を総合的に評価し、慎重に適用する必要があることを示した。
我々は2つのケーススタディを通して検出器の生産適応性を実証する。
(i)PyPI保守者用(FPR0.1%)及び
(ii) エンタープライズチーム用(10%FPRで調整)。
前者では、PyPIから収集した91,949個のパッケージを37日間にわたって分析し、毎日2.48個の悪意のあるパッケージを2.18個の偽陽性で検出した。
後者では,多国籍ソフトウェア企業で採用されている1,596個のパッケージを分析し,毎日1.24個の偽陽性が得られた。
これらの結果から,私たちの検出器はPyPIのようなパブリックリポジトリとエンタープライズエコシステムの両方にシームレスに統合され,偽陽性をレビューするために数分の非常に低い予算が確保できることがわかった。
全体として、346の悪意のあるパッケージが発見され、現在はコミュニティに報告されている。
関連論文リスト
- An Empirical Study of Vulnerabilities in Python Packages and Their Detection [12.629138654621983]
この記事では、Pythonパッケージの脆弱性の包括的なベンチマークスイートであるPyVulを紹介する。
PyVulには、公表された1,157の開発者認証脆弱性が含まれており、それぞれが影響を受けるパッケージにリンクされている。
ラベル精度を向上し、100%コミットレベルと94%関数レベルの精度を達成するために、LCM支援データクリーニング手法が組み込まれている。
論文 参考訳(メタデータ) (2025-09-04T14:38:28Z) - DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors [52.85182605005619]
トレーニング中にベンチマークテストセットを使用したモデルを識別するためにバックドアアタックを利用するフレームワークであるDiePackを紹介します。
銀行が染料パックにお金を混ぜて強盗をマークするのと同じように、DiePackはバックドアのサンプルとテストデータとを混ぜて、その上で訓練されたモデルのフラグを立てる。
我々はDiePackを3つのデータセットにわたる5つのモデルで評価し、複数の選択とオープンな生成タスクの両方をカバーした。
論文 参考訳(メタデータ) (2025-05-29T02:22:14Z) - DySec: A Machine Learning-based Dynamic Analysis for Detecting Malicious Packages in PyPI Ecosystem [4.045165357831481]
悪意あるPythonパッケージは、Python Package Index (PyPI)のようなオープンソースのリポジトリの信頼を悪用することで、ソフトウェアサプライチェーンを脆弱にする
リアルタイムの行動監視の欠如は、メタデータ検査と静的コード解析を高度な攻撃戦略に不適当にする。
我々は,PyPI用の機械学習ベースの動的解析フレームワークであるDySecを紹介し,eBPFカーネルとユーザレベルのプローブを用いてパッケージインストール時の動作を監視する。
論文 参考訳(メタデータ) (2025-03-01T03:20:42Z) - A Machine Learning-Based Approach For Detecting Malicious PyPI Packages [4.311626046942916]
現代のソフトウェア開発では、外部ライブラリやパッケージの使用が増えている。
この再利用コードへの依存は、悪意のあるパッケージという形でデプロイされたソフトウェアに重大なリスクをもたらす。
本稿では、機械学習と静的解析を用いて、パッケージのメタデータ、コード、ファイル、テキストの特徴を調べるデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-06T18:49:06Z) - Towards Robust Detection of Open Source Software Supply Chain Poisoning Attacks in Industry Environments [9.29518367616395]
我々は,NPMおよびPyPIエコシステムのための動的コード中毒検出パイプラインOSCARを提案する。
OSCARはサンドボックス環境でパッケージを完全に実行し、エクスポートされた関数やクラスに対してファズテストを採用し、アスペクトベースの振る舞い監視を実装している。
我々は、現実世界の悪質で良質なパッケージの包括的なベンチマークデータセットを用いて、OSCARを既存の6つのツールと比較した。
論文 参考訳(メタデータ) (2024-09-14T08:01:43Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - Killing Two Birds with One Stone: Malicious Package Detection in NPM and PyPI using a Single Model of Malicious Behavior Sequence [8.58275522939837]
パッケージレジストリ NPM と PyPI は悪意のあるパッケージで溢れている。
既存の悪意あるNPMとPyPIパッケージ検出アプローチの有効性は、2つの課題によって妨げられている。
我々は,NPMとPyPIの悪意あるパッケージを検出するためにCerebroを提案し,実装する。
論文 参考訳(メタデータ) (2023-09-06T00:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。