論文の概要: Characterizing Deep Learning Package Supply Chains in PyPI: Domains,
Clusters, and Disengagement
- arxiv url: http://arxiv.org/abs/2306.16307v1
- Date: Wed, 28 Jun 2023 15:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 18:45:42.818297
- Title: Characterizing Deep Learning Package Supply Chains in PyPI: Domains,
Clusters, and Disengagement
- Title(参考訳): PyPIにおけるディープラーニングパッケージ・サプライ・チェーンの特徴:ドメイン、クラスタ、ディスエンジメント
- Authors: Kai Gao, Runzhi He, Bing Xie, Minghui Zhou
- Abstract要約: ディープラーニング(DL)パッケージサプライチェーンは、DLフレームワークが競争力を維持するために不可欠である。
代表的な2つのPyPI DLパッケージSCにおいて,パッケージのドメイン,クラスタ,切り離しを解析した。
本研究は,PyPI DL SCのメンテナンスと依存性管理の実践に深く影響している。
- 参考スコア(独自算出の注目度): 14.938727013935654
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep learning (DL) package supply chains (SCs) are critical for DL frameworks
to remain competitive. However, vital knowledge on the nature of DL package SCs
is still lacking. In this paper, we explore the domains, clusters, and
disengagement of packages in two representative PyPI DL package SCs to bridge
this knowledge gap. We analyze the metadata of nearly six million PyPI package
distributions and construct version-sensitive SCs for two popular DL
frameworks: TensorFlow and PyTorch. We find that popular packages (measured by
the number of monthly downloads) in the two SCs cover 34 domains belonging to
eight categories. Applications, Infrastructure, and Sciences categories account
for over 85% of popular packages in either SC and TensorFlow and PyTorch SC
have developed specializations on Infrastructure and Applications packages
respectively. We employ the Leiden community detection algorithm and detect 131
and 100 clusters in the two SCs. The clusters mainly exhibit four shapes:
Arrow, Star, Tree, and Forest with increasing dependency complexity. Most
clusters are Arrow or Star, but Tree and Forest clusters account for most
packages (Tensorflow SC: 70%, PyTorch SC: 90%). We identify three groups of
reasons why packages disengage from the SC (i.e., remove the DL framework and
its dependents from their installation dependencies): dependency issues,
functional improvements, and ease of installation. The most common
disengagement reason in the two SCs are different. Our study provides rich
implications on the maintenance and dependency management practices of PyPI DL
SCs.
- Abstract(参考訳): ディープラーニング(DL)パッケージサプライチェーン(SC)は、DLフレームワークが競争力を維持するために不可欠である。
しかし、DLパッケージSCの性質に関する重要な知識はいまだに欠如している。
本稿では,この知識ギャップを埋めるため,2つの代表的なpypi dlパッケージscsにおいて,パッケージのドメイン,クラスタ,および解除について検討する。
約600万のPyPIパッケージディストリビューションのメタデータを分析し、人気のある2つのDLフレームワークであるTensorFlowとPyTorchのバージョンセンシティブなSCを構築します。
その結果,2つのSCは8つのカテゴリに属する34のドメインをカバーしている(月間ダウンロード数で測る)。
アプリケーション、インフラストラクチャ、科学のカテゴリはそれぞれ、SCとTensorFlowの人気のあるパッケージの85%以上を占めており、PyTorch SCはそれぞれ、インフラストラクチャとアプリケーションのパッケージに特化している。
我々は、Leidenコミュニティ検出アルゴリズムを用いて、2つのSCの131と100のクラスタを検出する。
クラスタは、主にアロー、スター、ツリー、フォレストという4つの形状を示し、依存関係の複雑さが増す。
ほとんどのクラスタはArrowまたはStarだが、TreeとForestのクラスタがほとんどのパッケージ(Tensorflow SC:70%、PyTorch SC:90%)を担っている。
パッケージがSCから切り離された3つの理由(すなわち、DLフレームワークとその依存物がインストール依存から削除される)、すなわち依存性の問題、機能改善、インストールの容易さの3つのグループを特定します。
2つのSCの最も一般的な解離原因は異なる。
本研究は,PyPI DL SCのメンテナンスと依存性管理の実践に深く影響している。
関連論文リスト
- A First Look at Package-to-Group Mechanism: An Empirical Study of the Linux Distributions [20.491275902894273]
パッケージ・ツー・グループ・メカニズム(P2G)は、インストール、アンインストール、複数パッケージの同時更新を可能にするために使用される。
本稿では,Linuxディストリビューションを事例として,その応用動向,進化パターン,グループ品質,開発者の傾向に着目した実証的研究を行う。
論文 参考訳(メタデータ) (2024-10-14T03:48:20Z) - An Overview and Catalogue of Dependency Challenges in Open Source Software Package Registries [52.23798016734889]
この記事では、OSSパッケージやライブラリに依存する依存関係関連の課題のカタログを提供する。
このカタログは、これらの課題を理解し、定量化し、克服するために行われた経験的研究に関する科学文献に基づいている。
論文 参考訳(メタデータ) (2024-09-27T16:20:20Z) - Analyzing the Accessibility of GitHub Repositories for PyPI and NPM Libraries [91.97201077607862]
産業アプリケーションはオープンソースソフトウェア(OSS)ライブラリに大きく依存しており、様々な利点を提供している。
このようなコミュニティの活動を監視するには、エコシステムのライブラリの包括的なリポジトリのリストにアクセスしなければなりません。
本研究では、PyPIライブラリとNPMライブラリのGitHubリポジトリのアクセシビリティを分析する。
論文 参考訳(メタデータ) (2024-04-26T13:27:04Z) - DONAPI: Malicious NPM Packages Detector using Behavior Sequence Knowledge Mapping [28.852274185512236]
npmは最も広範なパッケージマネージャであり、200万人以上のサードパーティのオープンソースパッケージをホストしている。
本稿では,340万以上のパッケージを含むローカルパッケージキャッシュをほぼリアルタイムで同期させ,より詳細なパッケージコードにアクセスできるようにする。
静的解析と動的解析を組み合わせた自動悪質npmパッケージ検出器であるDONAPIを提案する。
論文 参考訳(メタデータ) (2024-03-13T08:38:21Z) - Three Heads Are Better Than One: Complementary Experts for Long-Tailed Semi-supervised Learning [74.44500692632778]
本稿では,様々なクラス分布をモデル化するComPlementary Experts (CPE) を提案する。
CPEは、CIFAR-10-LT、CIFAR-100-LT、STL-10-LTのベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-25T11:54:07Z) - Less is More? An Empirical Study on Configuration Issues in Python PyPI
Ecosystem [38.44692482370243]
Pythonはオープンソースコミュニティで広く使われている。
サードパーティのライブラリは依存関係の衝突を引き起こす可能性があるため、研究者は依存関係の衝突検知器を開発する必要がある。
依存関係を自動的に推論する試みが実施された。
論文 参考訳(メタデータ) (2023-10-19T09:07:51Z) - PyPOTS: A Python Toolbox for Data Mining on Partially-Observed Time
Series [0.0]
PyPOTSは、部分的に保存された時系列のデータマイニングと分析に特化した、オープンソースのPythonライブラリである。
これは、計算、分類、クラスタリング、予測の4つのタスクに分類される多様なアルゴリズムに容易にアクセスできる。
論文 参考訳(メタデータ) (2023-05-30T07:57:05Z) - DADApy: Distance-based Analysis of DAta-manifolds in Python [51.37841707191944]
DADApyは、高次元データの分析と特徴付けのためのピソンソフトウェアパッケージである。
固有次元と確率密度を推定し、密度に基づくクラスタリングを行い、異なる距離メトリクスを比較する方法を提供する。
論文 参考訳(メタデータ) (2022-05-04T08:41:59Z) - Pack Together: Entity and Relation Extraction with Levitated Marker [61.232174424421025]
エンコーダにマーカを戦略的にパッケージ化することにより,スパン(ペア)間の依存関係を検討するために,Packed Levitated Markersという新しいスパン表現手法を提案する。
実験の結果,3つの平坦なNERタスクにおいて,有望なマーカーが充填されたモデルの方がシーケンスラベルモデルよりも0.4%-1.9%優れ,トークンコンキャットモデルを6つのNERベンチマークで上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-13T15:38:13Z) - An Empirical Analysis of the R Package Ecosystem [0.0]
私たちは20年間で25,000以上のパッケージ、15万のリリース、1500万ファイルを分析しました。
生態系の歴史的成長は、あらゆる手段の下で堅牢であることに気付きました。
論文 参考訳(メタデータ) (2021-02-19T12:55:18Z) - Superiority of Simplicity: A Lightweight Model for Network Device
Workload Prediction [58.98112070128482]
本稿では,歴史観測に基づく時系列予測のための軽量な解を提案する。
ニューラルネットワークと平均予測器という2つのモデルからなる異種アンサンブル法で構成されている。
利用可能なFedCSIS 2020チャレンジデータセットの総合的なR2$スコア0.10を達成している。
論文 参考訳(メタデータ) (2020-07-07T15:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。