論文の概要: An Empirical Analysis of the R Package Ecosystem
- arxiv url: http://arxiv.org/abs/2102.09904v1
- Date: Fri, 19 Feb 2021 12:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 18:06:36.017992
- Title: An Empirical Analysis of the R Package Ecosystem
- Title(参考訳): Rパッケージ生態系の実証分析
- Authors: Ethan Bommarito, Michael J Bommarito II
- Abstract要約: 私たちは20年間で25,000以上のパッケージ、15万のリリース、1500万ファイルを分析しました。
生態系の歴史的成長は、あらゆる手段の下で堅牢であることに気付きました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this research, we present a comprehensive, longitudinal empirical summary
of the R package ecosystem, including not just CRAN, but also Bioconductor and
GitHub. We analyze more than 25,000 packages, 150,000 releases, and 15 million
files across two decades, providing comprehensive counts and trends for common
metrics across packages, releases, authors, licenses, and other important
metadata. We find that the historical growth of the ecosystem has been robust
under all measures, with a compound annual growth rate of 29% for active
packages, 28% for new releases, and 26% for active maintainers. As with many
similar social systems, we find a number of highly right-skewed distributions
with practical implications, including the distribution of releases per
package, packages and releases per author or maintainer, package and maintainer
dependency in-degree, and size per package and release. For example, the top
five packages are imported by nearly 25% of all packages, and the top ten
maintainers support packages that are imported by over half of all packages. We
also highlight the dynamic nature of the ecosystem, recording both dramatic
acceleration and notable deceleration in the growth of R. From a licensing
perspective, we find a notable majority of packages are distributed under
copyleft licensing or omit licensing information entirely. The data, methods,
and calculations herein provide an anchor for public discourse and industry
decisions related to R and CRAN, serving as a foundation for future research on
the R software ecosystem and "data science" more broadly.
- Abstract(参考訳): 本研究では,CRANだけでなく,BioconductorやGitHubも含む,Rパッケージエコシステムの包括的,縦断的な要約を紹介する。
25,000以上のパッケージ、15万のリリース、1500万のファイルを分析し、パッケージ、リリース、著者、ライセンス、その他の重要なメタデータにまたがる共通メトリクスの包括的なカウントとトレンドを提供します。
生態系の歴史的成長は,すべての指標において堅牢であり,年次成長率はアクティブパッケージが29%,新リリースが28%,アクティブメンテナが26%であった。
多くの類似のソーシャルシステムと同様に、パッケージごとのリリースの配布、著者やメンテナ毎のパッケージとリリース、パッケージとメンテナの依存関係の程度、パッケージとリリース毎のサイズなど、実践的な意味を持つ、高度に右折したディストリビューションが多数存在する。
例えば、上位5つのパッケージは全パッケージの25%近くでインポートされ、上位10のメンテナは全パッケージの半数以上でインポートされるパッケージをサポートする。
ライセンスの観点からは、顕著なパッケージの大部分がコピーレフトライセンスの下で配布され、ライセンス情報が完全に省略されていることが分かります。
ここでのデータ、方法、計算は、RとCRANに関する公開の談話や業界決定の基盤となり、Rソフトウェアエコシステムと"データサイエンス"に関する将来の研究の基盤として役立ちます。
関連論文リスト
- Towards a Classification of Open-Source ML Models and Datasets for Software Engineering [52.257764273141184]
オープンソースの事前訓練モデル(PTM)とデータセットは、さまざまな機械学習(ML)タスクに広範なリソースを提供する。
これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。
我々は、人気のあるオープンソースのMLリポジトリであるHugging Face (HF)上で、SE指向の分類をPTMとデータセットに適用し、時間とともにPTMの進化を分析する。
論文 参考訳(メタデータ) (2024-11-14T18:52:05Z) - Measuring Software Innovation with Open Source Software Development Data [0.0]
本稿では,GitHub上のオープンソースソフトウェア(OSS)開発活動に基づいた,ソフトウェア革新の新たな尺度を紹介する。
リリース後2年間に28,000のユニークなパッケージから$sim$200,000のユニークなリリースで、依存関係の成長とリリースの複雑さを調べます。
OSSパッケージのメジャーリリースは、科学出版物、特許、標準を補完するイノベーションの単位として数えられる。
論文 参考訳(メタデータ) (2024-11-07T19:11:32Z) - A First Look at Package-to-Group Mechanism: An Empirical Study of the Linux Distributions [20.491275902894273]
パッケージ・ツー・グループ・メカニズム(P2G)は、インストール、アンインストール、複数パッケージの同時更新を可能にするために使用される。
本稿では,Linuxディストリビューションを事例として,その応用動向,進化パターン,グループ品質,開発者の傾向に着目した実証的研究を行う。
論文 参考訳(メタデータ) (2024-10-14T03:48:20Z) - A Systematic Approach to Evaluating Development Activity in Heterogeneous Package Management Systems for Overall System Health Assessment [0.0]
我々は,Linuxディストリビューション内のパッケージを識別する手法を開発し,リリースに含まれるOSSプロジェクトのバージョン間の開発活動の低さを示す。
Ubuntuディストリビューションの6000以上のパッケージに対して,エポックおよびアップストリームプロジェクトのメジャー,マイナー,パッチバージョンを抽出するために,正規表現を使用します。
論文 参考訳(メタデータ) (2024-09-06T19:58:20Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - The Stackage Repository: An Exploratory Study of its Evolution [0.0]
本稿では,モナドパッケージを考慮したスタックジュの進化に関する実証的研究を行う。
私たちの知る限りでは、これはStackageリポジトリのパッケージとモナドに関する進化の大規模な分析としては初めてのものです。
論文 参考訳(メタデータ) (2023-10-16T23:42:47Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - Promises and Perils of Mining Software Package Ecosystem Data [10.787686237395816]
サードパーティのパッケージは、依存関係間の迷路を伴う大規模なソフトウェアパッケージエコシステムの出現につながっている。
パッケージエコシステムのインフラストラクチャとダイナミクスを理解することで、コード再利用の改善、自動更新、脆弱性の回避といったアプローチが生まれました。
この章では、ソフトウェア工学研究者が利用可能なソフトウェアパッケージエコシステムに関連する豊富なデータをマイニングする約束と危険性についてレビューします。
論文 参考訳(メタデータ) (2023-05-29T03:09:48Z) - DADApy: Distance-based Analysis of DAta-manifolds in Python [51.37841707191944]
DADApyは、高次元データの分析と特徴付けのためのピソンソフトウェアパッケージである。
固有次元と確率密度を推定し、密度に基づくクラスタリングを行い、異なる距離メトリクスを比較する方法を提供する。
論文 参考訳(メタデータ) (2022-05-04T08:41:59Z) - Scikit-dimension: a Python package for intrinsic dimension estimation [58.8599521537]
この技術ノートは、固有次元推定のためのオープンソースのPythonパッケージであるtextttscikit-dimensionを紹介している。
textttscikit-dimensionパッケージは、Scikit-learnアプリケーションプログラミングインターフェイスに基づいて、既知のID推定子のほとんどを均一に実装する。
パッケージを簡潔に記述し、実生活と合成データにおけるID推定手法の大規模(500以上のデータセット)ベンチマークでその使用を実証する。
論文 参考訳(メタデータ) (2021-09-06T16:46:38Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。