論文の概要: An Empirical Study of Vulnerabilities in Python Packages and Their Detection
- arxiv url: http://arxiv.org/abs/2509.04260v1
- Date: Thu, 04 Sep 2025 14:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.189399
- Title: An Empirical Study of Vulnerabilities in Python Packages and Their Detection
- Title(参考訳): Pythonパッケージの脆弱性とその検出に関する実証的研究
- Authors: Haowei Quan, Junjie Wang, Xinzhe Li, Terry Yue Zhuo, Xiao Chen, Xiaoning Du,
- Abstract要約: この記事では、Pythonパッケージの脆弱性の包括的なベンチマークスイートであるPyVulを紹介する。
PyVulには、公表された1,157の開発者認証脆弱性が含まれており、それぞれが影響を受けるパッケージにリンクされている。
ラベル精度を向上し、100%コミットレベルと94%関数レベルの精度を達成するために、LCM支援データクリーニング手法が組み込まれている。
- 参考スコア(独自算出の注目度): 12.629138654621983
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the rapidly evolving software development landscape, Python stands out for its simplicity, versatility, and extensive ecosystem. Python packages, as units of organization, reusability, and distribution, have become a pressing concern, highlighted by the considerable number of vulnerability reports. As a scripting language, Python often cooperates with other languages for performance or interoperability. This adds complexity to the vulnerabilities inherent to Python packages, and the effectiveness of current vulnerability detection tools remains underexplored. This paper addresses these gaps by introducing PyVul, the first comprehensive benchmark suite of Python-package vulnerabilities. PyVul includes 1,157 publicly reported, developer-verified vulnerabilities, each linked to its affected packages. To accommodate diverse detection techniques, it provides annotations at both commit and function levels. An LLM-assisted data cleansing method is incorporated to improve label accuracy, achieving 100% commit-level and 94% function-level accuracy, establishing PyVul as the most precise large-scale Python vulnerability benchmark. We further carry out a distribution analysis of PyVul, which demonstrates that vulnerabilities in Python packages involve multiple programming languages and exhibit a wide variety of types. Moreover, our analysis reveals that multi-lingual Python packages are potentially more susceptible to vulnerabilities. Evaluation of state-of-the-art detectors using this benchmark reveals a significant discrepancy between the capabilities of existing tools and the demands of effectively identifying real-world security issues in Python packages. Additionally, we conduct an empirical review of the top-ranked CWEs observed in Python packages, to diagnose the fine-grained limitations of current detection tools and highlight the necessity for future advancements in the field.
- Abstract(参考訳): 急速に進化するソフトウェア開発の世界では、Pythonはその単純さ、汎用性、そして広範なエコシステムで際立っている。
組織、再利用可能性、配布の単位としてのPythonパッケージは、かなりの数の脆弱性レポートによって強調された、急激な関心事になっている。
スクリプト言語として、Pythonはパフォーマンスや相互運用性のために他の言語と協調することが多い。
これにより、Pythonパッケージ固有の脆弱性が複雑になり、現在の脆弱性検出ツールの有効性は未調査のままである。
本稿は、Pythonパッケージの脆弱性の包括的なベンチマークスイートであるPyVulを導入することで、これらのギャップに対処する。
PyVulには、公表された1,157の開発者認証脆弱性が含まれており、それぞれが影響を受けるパッケージにリンクされている。
さまざまな検出テクニックに対応するため、コミットレベルと関数レベルの両方でアノテーションを提供する。
LLM支援データクリーニング手法が組み込まれ、ラベルの精度が向上し、100%コミットレベルと94%関数レベルの精度が達成され、PyVulを最も正確な大規模Python脆弱性ベンチマークとして確立した。
さらにPyVulの分散解析を行い、Pythonパッケージの脆弱性には複数のプログラミング言語が含まれており、多様な型が存在することを示した。
さらに分析の結果,多言語Pythonパッケージは脆弱性の影響を受けやすい可能性が示唆された。
このベンチマークによる最先端の検知器の評価は、既存のツールの能力と、Pythonパッケージの現実のセキュリティ問題を効果的に識別する要求との間に大きな違いがあることを示している。
さらに、Pythonパッケージで見られる上位のCWEを実証的にレビューし、現在の検出ツールのきめ細かい制限を診断し、今後の進歩の必要性を強調します。
関連論文リスト
- SAGA: Detecting Security Vulnerabilities Using Static Aspect Analysis [5.971445533193919]
SAGAは、Pythonソースコードの脆弱性を多目的に検出し、発見するアプローチである。
私たちは、SAGAを108の脆弱性のデータセットで評価し、100%の感度と99.15%の特異性を得ました。
論文 参考訳(メタデータ) (2026-01-21T16:26:26Z) - Why Authors and Maintainers Link (or Don't Link) Their PyPI Libraries to Code Repositories and Donation Platforms [83.16077040470975]
Python Package Index(PyPI)上のライブラリのメタデータは、オープンソースライブラリの透明性、信頼性、持続性をサポートする上で重要な役割を果たす。
本稿は,5万PyPIの著者とメンテナに送付された2つの対象調査を組み合わせた大規模実証研究である。
我々は,大規模言語モデル(LLM)に基づくトピックモデリングを用いて1,400以上の応答を分析し,リポジトリと寄付プラットフォームのリンクに関連する重要なモチベーションと障壁を明らかにする。
論文 参考訳(メタデータ) (2026-01-21T16:13:57Z) - Analyzing the Availability of E-Mail Addresses for PyPI Libraries [89.21869606965578]
81.6%のライブラリには、少なくとも1つの有効な電子メールアドレスが含まれており、PyPIが主要なソースとなっている。
698,000以上の無効なエントリを識別します。
論文 参考訳(メタデータ) (2026-01-20T14:54:58Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - PyPitfall: Dependency Chaos and Software Supply Chain Vulnerabilities in Python [1.2644387713029346]
本稿では、PyPIエコシステム全体にわたる脆弱な依存関係の定量的解析であるPyPitfallを紹介する。
我々は,378,573個のPyPIパッケージの依存関係構造を分析し,少なくとも1つの既知の拡張可能なバージョンを必要とする4,655個のパッケージを特定した。
我々は,Pythonソフトウェアサプライチェーンのセキュリティに対する認識を高めることを目的としている。
論文 参考訳(メタデータ) (2025-07-24T03:58:18Z) - PyPulse: A Python Library for Biosignal Imputation [58.35269251730328]
PyPulseは,臨床およびウェアラブルの両方のセンサ設定において生体信号の計算を行うPythonパッケージである。
PyPulseのフレームワークは、非機械学習バイオリサーバーを含む幅広いユーザーベースに対して、使い勝手の良いモジュラーで拡張可能なフレームワークを提供する。
PyPulseはMITライセンスでGithubとPyPIでリリースしました。
論文 参考訳(メタデータ) (2024-12-09T11:00:55Z) - A Machine Learning-Based Approach For Detecting Malicious PyPI Packages [4.311626046942916]
現代のソフトウェア開発では、外部ライブラリやパッケージの使用が増えている。
この再利用コードへの依存は、悪意のあるパッケージという形でデプロイされたソフトウェアに重大なリスクをもたらす。
本稿では、機械学習と静的解析を用いて、パッケージのメタデータ、コード、ファイル、テキストの特徴を調べるデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-06T18:49:06Z) - An Empirical Study of Vulnerability Handling Times in CPython [0.2538209532048867]
本稿では,CPythonにおけるソフトウェア脆弱性の処理時間について検討する。
この論文は、Pythonエコシステムのセキュリティをよりよく理解するための最近の取り組みに貢献している。
論文 参考訳(メタデータ) (2024-11-01T08:46:14Z) - An Empirical Study on Package-Level Deprecation in Python Ecosystem [6.0347124337922144]
広く採用されているプログラミング言語であるPythonは、広範囲で多様なサードパーティ製パッケージエコシステムで有名である。
Pythonエコシステム内のOSSパッケージのかなりの数は、メンテナンスが不十分で、機能やセキュリティの潜在的なリスクにつながっている。
本稿では,Pythonエコシステムにおけるパッケージレベルの非推奨事項の公表,受信,処理に関する現在の実践について検討する。
論文 参考訳(メタデータ) (2024-08-19T18:08:21Z) - PyGOD: A Python Library for Graph Outlier Detection [56.33769221859135]
PyGODは、グラフデータの外れ値を検出するオープンソースライブラリである。
外れ値検出のための主要なグラフベースのメソッドを幅広くサポートしています。
PyGODはBSD 2-Clauseライセンスの下でhttps://pygod.orgとPython Package Index (PyPI)でリリースされている。
論文 参考訳(メタデータ) (2022-04-26T06:15:21Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Scikit-dimension: a Python package for intrinsic dimension estimation [58.8599521537]
この技術ノートは、固有次元推定のためのオープンソースのPythonパッケージであるtextttscikit-dimensionを紹介している。
textttscikit-dimensionパッケージは、Scikit-learnアプリケーションプログラミングインターフェイスに基づいて、既知のID推定子のほとんどを均一に実装する。
パッケージを簡潔に記述し、実生活と合成データにおけるID推定手法の大規模(500以上のデータセット)ベンチマークでその使用を実証する。
論文 参考訳(メタデータ) (2021-09-06T16:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。