論文の概要: npm-follower: A Complete Dataset Tracking the NPM Ecosystem
- arxiv url: http://arxiv.org/abs/2308.12545v1
- Date: Thu, 24 Aug 2023 04:05:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 12:56:50.613178
- Title: npm-follower: A Complete Dataset Tracking the NPM Ecosystem
- Title(参考訳): npm-follower: NPMエコシステムを追跡する完全なデータセット
- Authors: Donald Pinckney, Federico Cassano, Arjun Guha, Jonathan Bell
- Abstract要約: npm-followerは、すべてのパッケージとバージョンのメタデータとコードを公開時にアーカイブする、データセットとクローリングアーキテクチャである。
現在、データセットには3500万以上のパッケージが含まれており、月間100万バージョンの割合で成長している。
- 参考スコア(独自算出の注目度): 5.931961380320841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software developers typically rely upon a large network of dependencies to
build their applications. For instance, the NPM package repository contains
over 3 million packages and serves tens of billions of downloads weekly.
Understanding the structure and nature of packages, dependencies, and published
code requires datasets that provide researchers with easy access to metadata
and code of packages. However, prior work on NPM dataset construction typically
has two limitations: 1) only metadata is scraped, and 2) packages or versions
that are deleted from NPM can not be scraped. Over 330,000 versions of packages
were deleted from NPM between July 2022 and May 2023. This data is critical for
researchers as it often pertains to important questions of security and
malware. We present npm-follower, a dataset and crawling architecture which
archives metadata and code of all packages and versions as they are published,
and is thus able to retain data which is later deleted. The dataset currently
includes over 35 million versions of packages, and grows at a rate of about 1
million versions per month. The dataset is designed to be easily used by
researchers answering questions involving either metadata or program analysis.
Both the code and dataset are available at https://dependencies.science.
- Abstract(参考訳): ソフトウェア開発者は一般的にアプリケーションを構築するのに大量の依存ネットワークに依存します。
例えば、NPMパッケージリポジトリには300万以上のパッケージがあり、毎週数千億ダウンロードが提供されている。
パッケージ、依存関係、公開コードの構造と性質を理解するには、研究者が簡単にメタデータやパッケージのコードにアクセスできるようにするデータセットが必要である。
しかし、NPMデータセット構築に関する事前の作業は、一般的に2つの制限がある。
1)メタデータのみをスクラップし、
2) NPMから削除されたパッケージやバージョンはスクラップできない。
2022年7月から2023年5月までに33万以上のパッケージがnpmから削除された。
このデータは、セキュリティとマルウェアに関する重要な疑問にしばしば関連するため、研究者にとって重要なものだ。
我々は、npm-followerというデータセットとクローリングアーキテクチャを公開時にすべてのパッケージとバージョンのメタデータとコードをアーカイブし、後に削除されるデータを保持することができる。
現在、データセットには3500万以上のパッケージが含まれており、月間100万バージョンの割合で成長している。
このデータセットは、メタデータまたはプログラム分析に関する質問に答える研究者が簡単に使用できるように設計されている。
コードとデータセットはhttps://dependencies.science.com/で利用可能である。
関連論文リスト
- MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens [113.9621845919304]
MINT-1Tは最も広く多様なオープンソースMultimodal INTerleavedデータセットです。
MINT-1Tは1兆個のテキストトークンと340億の画像で構成され、既存のオープンソースデータセットの10倍のスケールアップである。
実験の結果,MINT-1TでトレーニングしたLMMは,以前の先行データセット OBELICS でトレーニングしたモデルの性能に匹敵することがわかった。
論文 参考訳(メタデータ) (2024-06-17T07:21:36Z) - PyRadar: Towards Automatically Retrieving and Validating Source Code Repository Information for PyPI Packages [24.8919191161202]
既存のツールは、PyPIリリースの70.5%しかリポジトリ情報を取得できない。
本稿では,PyPIリリースのリポジトリ情報の検索と検証にメタデータとソース配布を利用する新しいフレームワークであるPyRadarを提案する。
論文 参考訳(メタデータ) (2024-04-25T12:27:59Z) - CAM: A Collection of Snapshots of GitHub Java Repositories Together with
Metrics [0.0]
2024年3月2日に公開された2.2Gbの最新アーカイブには、クラス毎に48のメトリクスを持つ532KのJavaクラスが含まれています。
少なくとも年に1回は、非常に強力なサーバ上で最低10日間のプロセスであるスクリプト全体を実行して、新しいデータセットを生成します。
論文 参考訳(メタデータ) (2024-03-13T12:52:57Z) - DONAPI: Malicious NPM Packages Detector using Behavior Sequence Knowledge Mapping [28.852274185512236]
npmは最も広範なパッケージマネージャであり、200万人以上のサードパーティのオープンソースパッケージをホストしている。
本稿では,340万以上のパッケージを含むローカルパッケージキャッシュをほぼリアルタイムで同期させ,より詳細なパッケージコードにアクセスできるようにする。
静的解析と動的解析を組み合わせた自動悪質npmパッケージ検出器であるDONAPIを提案する。
論文 参考訳(メタデータ) (2024-03-13T08:38:21Z) - The Stackage Repository: An Exploratory Study of its Evolution [0.0]
本稿では,モナドパッケージを考慮したスタックジュの進化に関する実証的研究を行う。
私たちの知る限りでは、これはStackageリポジトリのパッケージとモナドに関する進化の大規模な分析としては初めてのものです。
論文 参考訳(メタデータ) (2023-10-16T23:42:47Z) - On the Feasibility of Cross-Language Detection of Malicious Packages in
npm and PyPI [6.935278888313423]
悪意のあるユーザは悪意のあるコードを含むオープンソースパッケージを公開することでマルウェアを拡散し始めた。
最近の研究は、npmエコシステム内の悪意あるパッケージを検出するために機械学習技術を適用している。
言語に依存しない一連の特徴と,npm と PyPI の悪意あるパッケージを検出可能なモデルのトレーニングを含む,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:32:51Z) - DADApy: Distance-based Analysis of DAta-manifolds in Python [51.37841707191944]
DADApyは、高次元データの分析と特徴付けのためのピソンソフトウェアパッケージである。
固有次元と確率密度を推定し、密度に基づくクラスタリングを行い、異なる距離メトリクスを比較する方法を提供する。
論文 参考訳(メタデータ) (2022-05-04T08:41:59Z) - PyHHMM: A Python Library for Heterogeneous Hidden Markov Models [63.01207205641885]
PyHHMM は Heterogeneous-Hidden Markov Models (HHMM) のオブジェクト指向Python実装である。
PyHHMMは、異種観測モデル、データ推論の欠如、異なるモデルの順序選択基準、半教師付きトレーニングなど、同様のフレームワークではサポートされない機能を強調している。
PyHHMMは、numpy、scipy、scikit-learn、およびシーボーンPythonパッケージに依存しており、Apache-2.0ライセンスの下で配布されている。
論文 参考訳(メタデータ) (2022-01-12T07:32:36Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - Sketch and Scale: Geo-distributed tSNE and UMAP [75.44887265789056]
地理的に分散したデータセット上で機械学習分析を実行することは、急速に発生する問題である。
私たちはSketch and Scale(SnS)という新しいフレームワークを紹介します。
これはCount Sketchデータ構造を利用して、エッジノード上のデータを圧縮し、マスターノード上の縮小サイズスケッチを集約し、サマリ上でバニラtSNEまたはUMAPを実行する。
我々は、この技術が完全に並列で、線形に時間にスケールし、メモリに対数的に分散し、通信し、世界中の複数のデータセンターにまたがる数百万、数十億のデータポイントでデータセットを解析できることを示す。
論文 参考訳(メタデータ) (2020-11-11T22:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。