論文の概要: PyRadar: Towards Automatically Retrieving and Validating Source Code Repository Information for PyPI Packages
- arxiv url: http://arxiv.org/abs/2404.16565v1
- Date: Thu, 25 Apr 2024 12:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:40:12.247134
- Title: PyRadar: Towards Automatically Retrieving and Validating Source Code Repository Information for PyPI Packages
- Title(参考訳): PyRadar: PyPIパッケージのソースコードリポジトリ情報の自動検索と検証を目指して
- Authors: Kai Gao, Weiwei Xu, Wenhao Yang, Minghui Zhou,
- Abstract要約: 既存のツールは、PyPIリリースの70.5%しかリポジトリ情報を取得できない。
本稿では,PyPIリリースのリポジトリ情報の検索と検証にメタデータとソース配布を利用する新しいフレームワークであるPyRadarを提案する。
- 参考スコア(独自算出の注目度): 24.8919191161202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A package's source code repository records the development history of the package, providing indispensable information for the use and risk monitoring of the package. However, a package release often misses its source code repository due to the separation of the package's development platform from its distribution platform. Existing tools retrieve the release's repository information from its metadata, which suffers from two limitations: the metadata may not contain or contain wrong information. Our analysis shows that existing tools can only retrieve repository information for up to 70.5% of PyPI releases. To address the limitations, this paper proposes PyRadar, a novel framework that utilizes the metadata and source distribution to retrieve and validate the repository information for PyPI releases. We start with an empirical study to compare four existing tools on 4,227,425 PyPI releases and analyze phantom files (files appearing in the release's distribution but not in the release's repository) in 14,375 correct package-repository links and 2,064 incorrect links. Based on the findings, we design PyRadar with three components, i.e., Metadata-based Retriever, Source Code Repository Validator, and Source Code-based Retriever. In particular, the Metadata-based Retriever combines best practices of existing tools and successfully retrieves repository information from the metadata for 72.1% of PyPI releases. The Source Code Repository Validator applies common machine learning algorithms on six crafted features and achieves an AUC of up to 0.995. The Source Code-based Retriever queries World of Code with the SHA-1 hashes of all Python files in the release's source distribution and retrieves repository information for 90.2% of packages in our dataset with an accuracy of 0.970. Both practitioners and researchers can employ the PyRadar to better use PyPI packages.
- Abstract(参考訳): パッケージのソースコードリポジトリは、パッケージの開発履歴を記録し、パッケージの使用とリスク監視に必要な情報を提供する。
しかしながら、パッケージのリリースは、パッケージの開発プラットフォームと配布プラットフォームを分離するため、ソースコードリポジトリを見逃すことが多い。
既存のツールは、そのメタデータからリリースのリポジトリ情報を取得する。
我々の分析によると、既存のツールはPyPIリリースの70.5%しかレポジトリ情報を取得できない。
本稿では,PyPIリリースのリポジトリ情報を検索し,検証するためにメタデータとソース配布を利用する新しいフレームワークであるPyRadarを提案する。
まず,4,227,425 PyPIリリース上の既存の4つのツールを比較し,14,375の正確なパッケージリポジトリリンクと2,064の誤ったリンクでファントムファイル(リリースのディストリビューションには表示されていないファイル)を分析した。
この結果に基づいて,メタデータベースのRetriever,ソースコードリポジトリバリデータ,ソースコードベースのRetrieverという3つのコンポーネントでPyRadarを設計する。
特に、メタデータベースのRetrieverは、既存のツールのベストプラクティスを組み合わせて、メタデータからPyPIリリースの72.1%のリポジトリ情報を取得することに成功した。
Source Code Repository Validatorは、一般的な機械学習アルゴリズムを6つの工芸的特徴に適用し、最大0.995のAUCを達成する。
Source CodeベースのRetrieverは、リリースのソースディストリビューションにあるすべてのPythonファイルをSHA-1ハッシュでWorld of Codeにクエリし、精度0.970でデータセット内のパッケージの90.2%のリポジトリ情報を検索する。
実践者も研究者もPyRadarを使って、PyPIパッケージをよりよく利用することができる。
関連論文リスト
- Analyzing the Accessibility of GitHub Repositories for PyPI and NPM Libraries [91.97201077607862]
産業アプリケーションはオープンソースソフトウェア(OSS)ライブラリに大きく依存しており、様々な利点を提供している。
このようなコミュニティの活動を監視するには、エコシステムのライブラリの包括的なリポジトリのリストにアクセスしなければなりません。
本研究では、PyPIライブラリとNPMライブラリのGitHubリポジトリのアクセシビリティを分析する。
論文 参考訳(メタデータ) (2024-04-26T13:27:04Z) - Less is More? An Empirical Study on Configuration Issues in Python PyPI
Ecosystem [38.44692482370243]
Pythonはオープンソースコミュニティで広く使われている。
サードパーティのライブラリは依存関係の衝突を引き起こす可能性があるため、研究者は依存関係の衝突検知器を開発する必要がある。
依存関係を自動的に推論する試みが実施された。
論文 参考訳(メタデータ) (2023-10-19T09:07:51Z) - The Stackage Repository: An Exploratory Study of its Evolution [0.0]
本稿では,モナドパッケージを考慮したスタックジュの進化に関する実証的研究を行う。
私たちの知る限りでは、これはStackageリポジトリのパッケージとモナドに関する進化の大規模な分析としては初めてのものです。
論文 参考訳(メタデータ) (2023-10-16T23:42:47Z) - On the Feasibility of Cross-Language Detection of Malicious Packages in
npm and PyPI [6.935278888313423]
悪意のあるユーザは悪意のあるコードを含むオープンソースパッケージを公開することでマルウェアを拡散し始めた。
最近の研究は、npmエコシステム内の悪意あるパッケージを検出するために機械学習技術を適用している。
言語に依存しない一連の特徴と,npm と PyPI の悪意あるパッケージを検出可能なモデルのトレーニングを含む,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:32:51Z) - scikit-fda: A Python Package for Functional Data Analysis [0.0]
scikit-fdaは、関数型データ分析(FDA)のためのPythonパッケージである
関数データの表現、前処理、探索分析のための包括的なツールセットを提供する。
論文 参考訳(メタデータ) (2022-11-04T16:34:03Z) - DADApy: Distance-based Analysis of DAta-manifolds in Python [51.37841707191944]
DADApyは、高次元データの分析と特徴付けのためのピソンソフトウェアパッケージである。
固有次元と確率密度を推定し、密度に基づくクラスタリングを行い、異なる距離メトリクスを比較する方法を提供する。
論文 参考訳(メタデータ) (2022-05-04T08:41:59Z) - Repro: An Open-Source Library for Improving the Reproducibility and
Usability of Publicly Available Research Code [74.28810048824519]
Reproは、研究コードのユーザビリティ向上を目的とした、オープンソースのライブラリである。
Dockerコンテナ内で研究者がリリースしたソフトウェアを実行するための軽量Python APIを提供する。
論文 参考訳(メタデータ) (2022-04-29T01:54:54Z) - PyGOD: A Python Library for Graph Outlier Detection [56.33769221859135]
PyGODは、グラフデータの外れ値を検出するオープンソースライブラリである。
外れ値検出のための主要なグラフベースのメソッドを幅広くサポートしています。
PyGODはBSD 2-Clauseライセンスの下でhttps://pygod.orgとPython Package Index (PyPI)でリリースされている。
論文 参考訳(メタデータ) (2022-04-26T06:15:21Z) - PyHHMM: A Python Library for Heterogeneous Hidden Markov Models [63.01207205641885]
PyHHMM は Heterogeneous-Hidden Markov Models (HHMM) のオブジェクト指向Python実装である。
PyHHMMは、異種観測モデル、データ推論の欠如、異なるモデルの順序選択基準、半教師付きトレーニングなど、同様のフレームワークではサポートされない機能を強調している。
PyHHMMは、numpy、scipy、scikit-learn、およびシーボーンPythonパッケージに依存しており、Apache-2.0ライセンスの下で配布されている。
論文 参考訳(メタデータ) (2022-01-12T07:32:36Z) - mvlearn: Multiview Machine Learning in Python [103.55817158943866]
mvlearnは、主要なマルチビュー機械学習メソッドを実装するPythonライブラリである。
パッケージはPython Package Index(PyPI)とcondaパッケージマネージャからインストールできる。
論文 参考訳(メタデータ) (2020-05-25T02:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。