論文の概要: An Empirical Study of Vulnerabilities in Python Packages and Their Detection
- arxiv url: http://arxiv.org/abs/2509.04260v1
- Date: Thu, 04 Sep 2025 14:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.189399
- Title: An Empirical Study of Vulnerabilities in Python Packages and Their Detection
- Title(参考訳): Pythonパッケージの脆弱性とその検出に関する実証的研究
- Authors: Haowei Quan, Junjie Wang, Xinzhe Li, Terry Yue Zhuo, Xiao Chen, Xiaoning Du,
- Abstract要約: この記事では、Pythonパッケージの脆弱性の包括的なベンチマークスイートであるPyVulを紹介する。
PyVulには、公表された1,157の開発者認証脆弱性が含まれており、それぞれが影響を受けるパッケージにリンクされている。
ラベル精度を向上し、100%コミットレベルと94%関数レベルの精度を達成するために、LCM支援データクリーニング手法が組み込まれている。
- 参考スコア(独自算出の注目度): 12.629138654621983
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the rapidly evolving software development landscape, Python stands out for its simplicity, versatility, and extensive ecosystem. Python packages, as units of organization, reusability, and distribution, have become a pressing concern, highlighted by the considerable number of vulnerability reports. As a scripting language, Python often cooperates with other languages for performance or interoperability. This adds complexity to the vulnerabilities inherent to Python packages, and the effectiveness of current vulnerability detection tools remains underexplored. This paper addresses these gaps by introducing PyVul, the first comprehensive benchmark suite of Python-package vulnerabilities. PyVul includes 1,157 publicly reported, developer-verified vulnerabilities, each linked to its affected packages. To accommodate diverse detection techniques, it provides annotations at both commit and function levels. An LLM-assisted data cleansing method is incorporated to improve label accuracy, achieving 100% commit-level and 94% function-level accuracy, establishing PyVul as the most precise large-scale Python vulnerability benchmark. We further carry out a distribution analysis of PyVul, which demonstrates that vulnerabilities in Python packages involve multiple programming languages and exhibit a wide variety of types. Moreover, our analysis reveals that multi-lingual Python packages are potentially more susceptible to vulnerabilities. Evaluation of state-of-the-art detectors using this benchmark reveals a significant discrepancy between the capabilities of existing tools and the demands of effectively identifying real-world security issues in Python packages. Additionally, we conduct an empirical review of the top-ranked CWEs observed in Python packages, to diagnose the fine-grained limitations of current detection tools and highlight the necessity for future advancements in the field.
- Abstract(参考訳): 急速に進化するソフトウェア開発の世界では、Pythonはその単純さ、汎用性、そして広範なエコシステムで際立っている。
組織、再利用可能性、配布の単位としてのPythonパッケージは、かなりの数の脆弱性レポートによって強調された、急激な関心事になっている。
スクリプト言語として、Pythonはパフォーマンスや相互運用性のために他の言語と協調することが多い。
これにより、Pythonパッケージ固有の脆弱性が複雑になり、現在の脆弱性検出ツールの有効性は未調査のままである。
本稿は、Pythonパッケージの脆弱性の包括的なベンチマークスイートであるPyVulを導入することで、これらのギャップに対処する。
PyVulには、公表された1,157の開発者認証脆弱性が含まれており、それぞれが影響を受けるパッケージにリンクされている。
さまざまな検出テクニックに対応するため、コミットレベルと関数レベルの両方でアノテーションを提供する。
LLM支援データクリーニング手法が組み込まれ、ラベルの精度が向上し、100%コミットレベルと94%関数レベルの精度が達成され、PyVulを最も正確な大規模Python脆弱性ベンチマークとして確立した。
さらにPyVulの分散解析を行い、Pythonパッケージの脆弱性には複数のプログラミング言語が含まれており、多様な型が存在することを示した。
さらに分析の結果,多言語Pythonパッケージは脆弱性の影響を受けやすい可能性が示唆された。
このベンチマークによる最先端の検知器の評価は、既存のツールの能力と、Pythonパッケージの現実のセキュリティ問題を効果的に識別する要求との間に大きな違いがあることを示している。
さらに、Pythonパッケージで見られる上位のCWEを実証的にレビューし、現在の検出ツールのきめ細かい制限を診断し、今後の進歩の必要性を強調します。
関連論文リスト
- PyPitfall: Dependency Chaos and Software Supply Chain Vulnerabilities in Python [1.2644387713029346]
本稿では、PyPIエコシステム全体にわたる脆弱な依存関係の定量的解析であるPyPitfallを紹介する。
我々は,378,573個のPyPIパッケージの依存関係構造を分析し,少なくとも1つの既知の拡張可能なバージョンを必要とする4,655個のパッケージを特定した。
我々は,Pythonソフトウェアサプライチェーンのセキュリティに対する認識を高めることを目的としている。
論文 参考訳(メタデータ) (2025-07-24T03:58:18Z) - PyPulse: A Python Library for Biosignal Imputation [58.35269251730328]
PyPulseは,臨床およびウェアラブルの両方のセンサ設定において生体信号の計算を行うPythonパッケージである。
PyPulseのフレームワークは、非機械学習バイオリサーバーを含む幅広いユーザーベースに対して、使い勝手の良いモジュラーで拡張可能なフレームワークを提供する。
PyPulseはMITライセンスでGithubとPyPIでリリースしました。
論文 参考訳(メタデータ) (2024-12-09T11:00:55Z) - A Machine Learning-Based Approach For Detecting Malicious PyPI Packages [4.311626046942916]
現代のソフトウェア開発では、外部ライブラリやパッケージの使用が増えている。
この再利用コードへの依存は、悪意のあるパッケージという形でデプロイされたソフトウェアに重大なリスクをもたらす。
本稿では、機械学習と静的解析を用いて、パッケージのメタデータ、コード、ファイル、テキストの特徴を調べるデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-06T18:49:06Z) - An Empirical Study of Vulnerability Handling Times in CPython [0.2538209532048867]
本稿では,CPythonにおけるソフトウェア脆弱性の処理時間について検討する。
この論文は、Pythonエコシステムのセキュリティをよりよく理解するための最近の取り組みに貢献している。
論文 参考訳(メタデータ) (2024-11-01T08:46:14Z) - An Empirical Study on Package-Level Deprecation in Python Ecosystem [6.0347124337922144]
広く採用されているプログラミング言語であるPythonは、広範囲で多様なサードパーティ製パッケージエコシステムで有名である。
Pythonエコシステム内のOSSパッケージのかなりの数は、メンテナンスが不十分で、機能やセキュリティの潜在的なリスクにつながっている。
本稿では,Pythonエコシステムにおけるパッケージレベルの非推奨事項の公表,受信,処理に関する現在の実践について検討する。
論文 参考訳(メタデータ) (2024-08-19T18:08:21Z) - PyGOD: A Python Library for Graph Outlier Detection [56.33769221859135]
PyGODは、グラフデータの外れ値を検出するオープンソースライブラリである。
外れ値検出のための主要なグラフベースのメソッドを幅広くサポートしています。
PyGODはBSD 2-Clauseライセンスの下でhttps://pygod.orgとPython Package Index (PyPI)でリリースされている。
論文 参考訳(メタデータ) (2022-04-26T06:15:21Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Scikit-dimension: a Python package for intrinsic dimension estimation [58.8599521537]
この技術ノートは、固有次元推定のためのオープンソースのPythonパッケージであるtextttscikit-dimensionを紹介している。
textttscikit-dimensionパッケージは、Scikit-learnアプリケーションプログラミングインターフェイスに基づいて、既知のID推定子のほとんどを均一に実装する。
パッケージを簡潔に記述し、実生活と合成データにおけるID推定手法の大規模(500以上のデータセット)ベンチマークでその使用を実証する。
論文 参考訳(メタデータ) (2021-09-06T16:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。