Fugu-MT 論文翻訳(概要): An Empirical Analysis of the R Package Ecosystem

論文の概要: An Empirical Analysis of the R Package Ecosystem

arxiv url: http://arxiv.org/abs/2102.09904v1
Date: Fri, 19 Feb 2021 12:55:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-10 18:06:36.017992
Title: An Empirical Analysis of the R Package Ecosystem
Title（参考訳）: Rパッケージ生態系の実証分析
Authors: Ethan Bommarito, Michael J Bommarito II
Abstract要約: 私たちは20年間で25,000以上のパッケージ、15万のリリース、1500万ファイルを分析しました。生態系の歴史的成長は、あらゆる手段の下で堅牢であることに気付きました。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this research, we present a comprehensive, longitudinal empirical summary of the R package ecosystem, including not just CRAN, but also Bioconductor and GitHub. We analyze more than 25,000 packages, 150,000 releases, and 15 million files across two decades, providing comprehensive counts and trends for common metrics across packages, releases, authors, licenses, and other important metadata. We find that the historical growth of the ecosystem has been robust under all measures, with a compound annual growth rate of 29% for active packages, 28% for new releases, and 26% for active maintainers. As with many similar social systems, we find a number of highly right-skewed distributions with practical implications, including the distribution of releases per package, packages and releases per author or maintainer, package and maintainer dependency in-degree, and size per package and release. For example, the top five packages are imported by nearly 25% of all packages, and the top ten maintainers support packages that are imported by over half of all packages. We also highlight the dynamic nature of the ecosystem, recording both dramatic acceleration and notable deceleration in the growth of R. From a licensing perspective, we find a notable majority of packages are distributed under copyleft licensing or omit licensing information entirely. The data, methods, and calculations herein provide an anchor for public discourse and industry decisions related to R and CRAN, serving as a foundation for future research on the R software ecosystem and "data science" more broadly.
Abstract（参考訳）: 本研究では,CRANだけでなく,BioconductorやGitHubも含む,Rパッケージエコシステムの包括的,縦断的な要約を紹介する。 25,000以上のパッケージ、15万のリリース、1500万のファイルを分析し、パッケージ、リリース、著者、ライセンス、その他の重要なメタデータにまたがる共通メトリクスの包括的なカウントとトレンドを提供します。生態系の歴史的成長は,すべての指標において堅牢であり,年次成長率はアクティブパッケージが29%,新リリースが28%,アクティブメンテナが26%であった。多くの類似のソーシャルシステムと同様に、パッケージごとのリリースの配布、著者やメンテナ毎のパッケージとリリース、パッケージとメンテナの依存関係の程度、パッケージとリリース毎のサイズなど、実践的な意味を持つ、高度に右折したディストリビューションが多数存在する。例えば、上位5つのパッケージは全パッケージの25%近くでインポートされ、上位10のメンテナは全パッケージの半数以上でインポートされるパッケージをサポートする。ライセンスの観点からは、顕著なパッケージの大部分がコピーレフトライセンスの下で配布され、ライセンス情報が完全に省略されていることが分かります。ここでのデータ、方法、計算は、RとCRANに関する公開の談話や業界決定の基盤となり、Rソフトウェアエコシステムと"データサイエンス"に関する将来の研究の基盤として役立ちます。

関連論文リスト

Why Authors and Maintainers Link (or Don't Link) Their PyPI Libraries to Code Repositories and Donation Platforms [83.16077040470975]
Python Package Index(PyPI)上のライブラリのメタデータは、オープンソースライブラリの透明性、信頼性、持続性をサポートする上で重要な役割を果たす。本稿は,5万PyPIの著者とメンテナに送付された2つの対象調査を組み合わせた大規模実証研究である。我々は,大規模言語モデル(LLM)に基づくトピックモデリングを用いて1,400以上の応答を分析し,リポジトリと寄付プラットフォームのリンクに関連する重要なモチベーションと障壁を明らかにする。
論文参考訳（メタデータ） (2026-01-21T16:13:57Z)
Analyzing the Availability of E-Mail Addresses for PyPI Libraries [89.21869606965578]
81.6%のライブラリには、少なくとも1つの有効な電子メールアドレスが含まれており、PyPIが主要なソースとなっている。 698,000以上の無効なエントリを識別します。
論文参考訳（メタデータ） (2026-01-20T14:54:58Z)
RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository [52.98970048197381]
RepoGenesisは、リポジトリレベルのエンドツーエンドWebマイクロサービス生成のための、最初の多言語ベンチマークである。 18のドメインと11のフレームワークに106のリポジトリ(60のPython、46のJava)があり、1,258のAPIエンドポイントと2,335のテストケースが検証されている。その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスのシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成していないことが明らかになった。
論文参考訳（メタデータ） (2026-01-20T13:19:20Z)
Insecure Ingredients? Exploring Dependency Update Patterns of Bundled JavaScript Packages on the Web [0.0]
Aletheiaは、パッケージのバージョンを特定するためにJavaScriptバンドルを識別するパッケージに依存しないメソッドである。 Trancoのトップ10万のドメインをクロールして、5%から20%のドメインが16週間以内に依存関係を更新していることを明らかにします。
論文参考訳（メタデータ） (2025-12-17T13:43:32Z)
LLMs as Packagers of HPC Software [2.195636219953539]
Spackのようなツールは依存関係の解決と環境管理を自動化するが、その効果は手書きのビルドレシピに依存している。 SpackItは、リポジトリ分析、関連するサンプルの検索、診断フィードバックによる反復的改善を組み合わせたエンドツーエンドフレームワークである。以上の結果から,SpackItはゼロショット環境でのインストール成功率を20%から,最高の設定で80%以上に向上させることがわかった。
論文参考訳（メタデータ） (2025-11-07T00:06:51Z)
Replication Packages in Software Engineering Secondary Studies: A Systematic Mapping [0.9421843976231371]
システムレビュー(SR)は、ソフトウェア工学(SE)を含む科学における最先端の証拠をまとめたものである。 2013年から2023年の間に発行された528件の二次研究では、複製パッケージの可用性と報告を分析した。
論文参考訳（メタデータ） (2025-04-17T05:11:39Z)
Cream of the Crop: Harvesting Rich, Scalable and Transferable Multi-Modal Data for Instruction Fine-Tuning [59.56171041796373]
我々は、堅牢で効率的なマルチモーダル・インストラクショナルデータを収集する。インタラクションスタイルを多様性指標とし、マルチモーダルリッチなスタイルラーを用いてデータインストラクションパターンを識別する。 14のマルチモーダルベンチマークによって検証された10以上の実験環境において、ランダムサンプリング、ベースライン戦略、最先端の選択方法に対する一貫した改善を示す。
論文参考訳（メタデータ） (2025-03-17T17:11:22Z)
Rethinking Reuse in Dependency Supply Chains: Initial Analysis of NPM packages at the End of the Chain [2.4969046521751768]
本稿では,サードパーティパッケージへの依存を最小限に抑えるためのソフトウェア開発プラクティスの転換を提唱する。これらのエンドツーエンドパッケージは、エコシステムにおいて重要な役割を担っているため、ユニークな洞察を提供する。
論文参考訳（メタデータ） (2025-03-04T17:26:34Z)
Towards a Classification of Open-Source ML Models and Datasets for Software Engineering [52.257764273141184]
オープンソースの事前訓練モデル(PTM)とデータセットは、さまざまな機械学習(ML)タスクに広範なリソースを提供する。これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。我々は、人気のあるオープンソースのMLリポジトリであるHugging Face (HF)上で、SE指向の分類をPTMとデータセットに適用し、時間とともにPTMの進化を分析する。
論文参考訳（メタデータ） (2024-11-14T18:52:05Z)
Measuring Software Innovation with Open Source Software Development Data [0.0]
本稿では,GitHub上のオープンソースソフトウェア(OSS)開発活動に基づいた,ソフトウェア革新の新たな尺度を紹介する。リリース後2年間に28,000のユニークなパッケージから$sim$200,000のユニークなリリースで、依存関係の成長とリリースの複雑さを調べます。 OSSパッケージのメジャーリリースは、科学出版物、特許、標準を補完するイノベーションの単位として数えられる。
論文参考訳（メタデータ） (2024-11-07T19:11:32Z)
A First Look at Package-to-Group Mechanism: An Empirical Study of the Linux Distributions [20.491275902894273]
パッケージ・ツー・グループ・メカニズム(P2G)は、インストール、アンインストール、複数パッケージの同時更新を可能にするために使用される。本稿では,Linuxディストリビューションを事例として,その応用動向,進化パターン,グループ品質,開発者の傾向に着目した実証的研究を行う。
論文参考訳（メタデータ） (2024-10-14T03:48:20Z)
A Systematic Approach to Evaluating Development Activity in Heterogeneous Package Management Systems for Overall System Health Assessment [0.0]
我々は,Linuxディストリビューション内のパッケージを識別する手法を開発し,リリースに含まれるOSSプロジェクトのバージョン間の開発活動の低さを示す。 Ubuntuディストリビューションの6000以上のパッケージに対して,エポックおよびアップストリームプロジェクトのメジャー,マイナー,パッチバージョンを抽出するために,正規表現を使用します。
論文参考訳（メタデータ） (2024-09-06T19:58:20Z)
How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
The Stackage Repository: An Exploratory Study of its Evolution [0.0]
本稿では,モナドパッケージを考慮したスタックジュの進化に関する実証的研究を行う。私たちの知る限りでは、これはStackageリポジトリのパッケージとモナドに関する進化の大規模な分析としては初めてのものです。
論文参考訳（メタデータ） (2023-10-16T23:42:47Z)
Characterizing Deep Learning Package Supply Chains in PyPI: Domains, Clusters, and Disengagement [14.938727013935654]
ディープラーニング(DL)パッケージサプライチェーンは、DLフレームワークが競争力を維持するために不可欠である。代表的な2つのPyPI DLパッケージSCにおいて,パッケージのドメイン,クラスタ,切り離しを解析した。本研究は,PyPI DL SCのメンテナンスと依存性管理の実践に深く影響している。
論文参考訳（メタデータ） (2023-06-28T15:34:52Z)
MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。既存のパブリックMSMOデータセットには多くの制限がある。 textbfMMSumデータセットを精巧にキュレートした。
論文参考訳（メタデータ） (2023-06-07T07:43:11Z)
Promises and Perils of Mining Software Package Ecosystem Data [10.787686237395816]
サードパーティのパッケージは、依存関係間の迷路を伴う大規模なソフトウェアパッケージエコシステムの出現につながっている。パッケージエコシステムのインフラストラクチャとダイナミクスを理解することで、コード再利用の改善、自動更新、脆弱性の回避といったアプローチが生まれました。この章では、ソフトウェア工学研究者が利用可能なソフトウェアパッケージエコシステムに関連する豊富なデータをマイニングする約束と危険性についてレビューします。
論文参考訳（メタデータ） (2023-05-29T03:09:48Z)
DADApy: Distance-based Analysis of DAta-manifolds in Python [51.37841707191944]
DADApyは、高次元データの分析と特徴付けのためのピソンソフトウェアパッケージである。固有次元と確率密度を推定し、密度に基づくクラスタリングを行い、異なる距離メトリクスを比較する方法を提供する。
論文参考訳（メタデータ） (2022-05-04T08:41:59Z)
Scikit-dimension: a Python package for intrinsic dimension estimation [58.8599521537]
この技術ノートは、固有次元推定のためのオープンソースのPythonパッケージであるtextttscikit-dimensionを紹介している。 textttscikit-dimensionパッケージは、Scikit-learnアプリケーションプログラミングインターフェイスに基づいて、既知のID推定子のほとんどを均一に実装する。パッケージを簡潔に記述し、実生活と合成データにおけるID推定手法の大規模(500以上のデータセット)ベンチマークでその使用を実証する。
論文参考訳（メタデータ） (2021-09-06T16:46:38Z)
CO-Search: COVID-19 Information Retrieval with Semantic Search, Question Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。 TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文参考訳（メタデータ） (2020-06-17T01:32:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。