論文の概要: Software Dependencies 2.0: An Empirical Study of Reuse and Integration of Pre-Trained Models in Open-Source Projects
- arxiv url: http://arxiv.org/abs/2509.06085v1
- Date: Sun, 07 Sep 2025 15:00:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.850875
- Title: Software Dependencies 2.0: An Empirical Study of Reuse and Integration of Pre-Trained Models in Open-Source Projects
- Title(参考訳): ソフトウェア依存 2.0: オープンソースプロジェクトにおける事前学習モデルの再利用と統合に関する実証的研究
- Authors: Jerin Yasmin, Wenxin Jiang, James C. Davis, Yuan Tian,
- Abstract要約: 事前訓練されたモデル(PTM)は、前もってトレーニングされた機械学習モデルであり、しばしば大規模データに基づいており、新しいタスクのために再利用することができる。
Software Dependencies 2.0は、Software Dependencies 2.0という、ソフトウェア依存の新しいクラスを導入します。
- 参考スコア(独自算出の注目度): 9.22889135297242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained models (PTMs) are machine learning models that have been trained in advance, often on large-scale data, and can be reused for new tasks, thereby reducing the need for costly training from scratch. Their widespread adoption introduces a new class of software dependency, which we term Software Dependencies 2.0, extending beyond conventional libraries to learned behaviors embodied in trained models and their associated artifacts. The integration of PTMs as software dependencies in real projects remains unclear, potentially threatening maintainability and reliability of modern software systems that increasingly rely on them. Objective: In this study, we investigate Software Dependencies 2.0 in open-source software (OSS) projects by examining the reuse of PTMs, with a focus on how developers manage and integrate these models. Specifically, we seek to understand: (1) how OSS projects structure and document their PTM dependencies; (2) what stages and organizational patterns emerge in the reuse pipelines of PTMs within these projects; and (3) the interactions among PTMs and other learned components across pipeline stages. We conduct a mixed-methods analysis of a statistically significant random sample of 401 GitHub repositories from the PeaTMOSS dataset (28,575 repositories reusing PTMs from Hugging Face and PyTorch Hub). We quantitatively examine PTM reuse by identifying patterns and qualitatively investigate how developers integrate and manage these models in practice.
- Abstract(参考訳): 事前トレーニングモデル(PTM)は、前もってトレーニングされた機械学習モデルであり、多くの場合、大規模なデータに基づいて、新しいタスクに再利用できるため、コストのかかるトレーニングをゼロから削減できる。
ソフトウェア依存2.0(Software Dependencies 2.0)と呼ばれ、従来のライブラリを超えて、トレーニングされたモデルとその関連するアーティファクトに具現化された学習行動へと拡張されます。
実際のプロジェクトにおけるソフトウェア依存関係としての PTM の統合は依然として不明であり、ますます依存する現代のソフトウェアシステムの保守性と信頼性を脅かす可能性がある。
目的:本研究では,オープンソースソフトウェア (OSS) プロジェクトにおけるソフトウェア依存性 2.0 について,開発者がこれらのモデルをどのように管理し,統合するかに着目して検討する。
具体的には,(1)OSSプロジェクトの構造とPTM依存性の文書化,(2)PTMの再利用パイプラインにおける段階的および組織的パターンの出現,(3)PTMと他の学習コンポーネント間のパイプラインステージ間の相互作用の理解を求める。
PeaTMOSSデータセット(Hugging FaceとPyTorch HubのPTMを再利用した28,575のリポジトリ)から,統計学的に有意な401のGitHubリポジトリの混合メソッド解析を行った。
パターンを特定してPTMの再利用を定量的に検討し、開発者がこれらのモデルを実際にどのように統合し管理するかを質的に検討する。
関連論文リスト
- How do Pre-Trained Models Support Software Engineering? An Empirical Study in Hugging Face [52.257764273141184]
オープンソースの事前訓練モデル(PTM)は、さまざまな機械学習(ML)タスクに広範なリソースを提供する。
これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。
私たちは147のSEタスクを含む分類法を導き、人気のあるオープンソースMLリポジトリであるHugging Face (HF)において、SE指向の分類をPTMに適用する。
PTMではコード生成が最も一般的なSEタスクであるのに対して、要件エンジニアリングとソフトウェア設計のアクティビティは限定的な注目を集めている。
論文 参考訳(メタデータ) (2025-06-03T15:51:17Z) - Exploring the Lifecycle and Maintenance Practices of Pre-Trained Models in Open-Source Software Repositories [1.3757201415751368]
事前訓練されたモデル(PTM)は、オープンソースソフトウェア(OSS)開発において共通のコンポーネントになりつつある。
本報告では, OSS プロジェクトで PTM の活用, 維持, 試験方法について検討する。
論文 参考訳(メタデータ) (2025-04-08T13:41:13Z) - Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Towards a Classification of Open-Source ML Models and Datasets for Software Engineering [52.257764273141184]
オープンソースの事前訓練モデル(PTM)とデータセットは、さまざまな機械学習(ML)タスクに広範なリソースを提供する。
これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。
我々は、人気のあるオープンソースのMLリポジトリであるHugging Face (HF)上で、SE指向の分類をPTMとデータセットに適用し、時間とともにPTMの進化を分析する。
論文 参考訳(メタデータ) (2024-11-14T18:52:05Z) - PeaTMOSS: A Dataset and Initial Analysis of Pre-Trained Models in
Open-Source Software [6.243303627949341]
本稿では,281,638PTMのメタデータと全PTMの詳細なスナップショットを含むPeaTMOSSデータセットを提案する。
データセットには15,129のダウンストリームGitHubリポジトリから2,530のPTMへの44,337のマッピングが含まれている。
我々の分析は、PTMサプライチェーンに関する最初の要約統計を提供し、PTM開発の動向とPTMパッケージドキュメンテーションの共通の欠点を示している。
論文 参考訳(メタデータ) (2024-02-01T15:55:50Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - PeaTMOSS: Mining Pre-Trained Models in Open-Source Software [6.243303627949341]
PeaTMOSSデータセットを提示する。 オープンソースソフトウェアにおける事前学習モデル。
PeaTMOSSには3つの部分がある: スナップショットは281,638 PTM、 (2) PTMを使用するオープンソースソフトウェアリポジトリ27,270、(3) PTMとそれを使用するプロジェクトの間のマッピング。
論文 参考訳(メタデータ) (2023-10-05T15:58:45Z) - ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z) - An Empirical Study of Pre-Trained Model Reuse in the Hugging Face Deep
Learning Model Registry [2.1346819928536687]
機械学習エンジニアが大規模事前学習モデル(PTM)の再利用を開始
私たちは、最も人気のあるPTMエコシステムであるHugging Faceの実践者12人にインタビューして、PTM再利用のプラクティスと課題を学びました。
PTM再利用の3つの課題は、属性の欠如、クレームと実際のパフォーマンスの相違、モデルリスクである。
論文 参考訳(メタデータ) (2023-03-05T02:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。