論文の概要: PeaTMOSS: A Dataset and Initial Analysis of Pre-Trained Models in
Open-Source Software
- arxiv url: http://arxiv.org/abs/2402.00699v1
- Date: Thu, 1 Feb 2024 15:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 14:49:26.811509
- Title: PeaTMOSS: A Dataset and Initial Analysis of Pre-Trained Models in
Open-Source Software
- Title(参考訳): PeaTMOSS: オープンソースソフトウェアにおける事前学習モデルのデータセットと初期分析
- Authors: Wenxin Jiang, Jerin Yasmin, Jason Jones, Nicholas Synovic, Jiashen
Kuo, Nathaniel Bielanski, Yuan Tian, George K. Thiruvathukal, James C. Davis
- Abstract要約: 本稿では,281,638PTMのメタデータと全PTMの詳細なスナップショットを含むPeaTMOSSデータセットを提案する。
データセットには15,129のダウンストリームGitHubリポジトリから2,530のPTMへの44,337のマッピングが含まれている。
我々の分析は、PTMサプライチェーンに関する最初の要約統計を提供し、PTM開発の動向とPTMパッケージドキュメンテーションの共通の欠点を示している。
- 参考スコア(独自算出の注目度): 6.243303627949341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development and training of deep learning models have become increasingly
costly and complex. Consequently, software engineers are adopting pre-trained
models (PTMs) for their downstream applications. The dynamics of the PTM supply
chain remain largely unexplored, signaling a clear need for structured datasets
that document not only the metadata but also the subsequent applications of
these models. Without such data, the MSR community cannot comprehensively
understand the impact of PTM adoption and reuse. This paper presents the
PeaTMOSS dataset, which comprises metadata for 281,638 PTMs and detailed
snapshots for all PTMs with over 50 monthly downloads (14,296 PTMs), along with
28,575 open-source software repositories from GitHub that utilize these models.
Additionally, the dataset includes 44,337 mappings from 15,129 downstream
GitHub repositories to the 2,530 PTMs they use. To enhance the dataset's
comprehensiveness, we developed prompts for a large language model to
automatically extract model metadata, including the model's training datasets,
parameters, and evaluation metrics. Our analysis of this dataset provides the
first summary statistics for the PTM supply chain, showing the trend of PTM
development and common shortcomings of PTM package documentation. Our example
application reveals inconsistencies in software licenses across PTMs and their
dependent projects. PeaTMOSS lays the foundation for future research, offering
rich opportunities to investigate the PTM supply chain. We outline mining
opportunities on PTMs, their downstream usage, and cross-cutting questions.
- Abstract(参考訳): ディープラーニングモデルの開発とトレーニングはますます高価で複雑になっています。
その結果、ソフトウェアエンジニアは、下流アプリケーションに事前訓練されたモデル(PTM)を採用しています。
ptmサプライチェーンのダイナミクスはほとんど未調査のままであり、メタデータだけでなく、それに続くモデルの応用を文書化する構造化データセットの必要性を明確に示している。
このようなデータがないと、MSRコミュニティはPMMの採用と再利用の影響を包括的に理解できない。
本稿では,281,638 PTMのメタデータと50以上の月間ダウンロード(14,296 PTM)を含む全PTMの詳細なスナップショットを含むPeaTMOSSデータセットと,これらのモデルを利用するGitHubの28,575のオープンソースソフトウェアリポジトリについて述べる。
さらに、データセットには15,129のダウンストリームGitHubリポジトリから使用する2,530のPTMへの44,337のマッピングが含まれている。
データセットの包括性を高めるため、モデルのトレーニングデータセット、パラメータ、評価指標を含むモデルメタデータを自動的に抽出する大規模言語モデルのプロンプトを開発した。
本データセットの分析は, PTM のサプライチェーンに関する最初の要約統計を提供し, PTM 開発の動向と PTM パッケージドキュメンテーションの共通欠点を示している。
サンプルアプリケーションは、ptmとその依存するプロジェクト間のソフトウェアライセンスの不整合を明らかにします。
PeaTMOSSは将来の研究の基礎を築き、PTMサプライチェーンを調査する豊富な機会を提供する。
PTM, 下流利用, 横断的な質問に対するマイニングの機会について概説する。
関連論文リスト
- Towards a Classification of Open-Source ML Models and Datasets for Software Engineering [52.257764273141184]
オープンソースの事前訓練モデル(PTM)とデータセットは、さまざまな機械学習(ML)タスクに広範なリソースを提供する。
これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。
我々は、人気のあるオープンソースのMLリポジトリであるHugging Face (HF)上で、SE指向の分類をPTMとデータセットに適用し、時間とともにPTMの進化を分析する。
論文 参考訳(メタデータ) (2024-11-14T18:52:05Z) - Automated categorization of pre-trained models for software engineering: A case study with a Hugging Face dataset [9.218130273952383]
ソフトウェアエンジニアリング活動は、事前訓練されたモデル(PTM)の出現によって革新した。
Hugging Face (HF)プラットフォームは、いくつかのモデルを収集、保存、キュレーションすることで、PTMの使用を単純化する。
本稿では,SEタスクに対するPTMの自動分類を実現するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-21T20:26:17Z) - PeaTMOSS: Mining Pre-Trained Models in Open-Source Software [6.243303627949341]
PeaTMOSSデータセットを提示する。 オープンソースソフトウェアにおける事前学習モデル。
PeaTMOSSには3つの部分がある: スナップショットは281,638 PTM、 (2) PTMを使用するオープンソースソフトウェアリポジトリ27,270、(3) PTMとそれを使用するプロジェクトの間のマッピング。
論文 参考訳(メタデータ) (2023-10-05T15:58:45Z) - Efficient Federated Prompt Tuning for Black-box Large Pre-trained Models [62.838689691468666]
我々は,各ローカルデータセットを最適に活用するためのフェデレートブラックボックス・プロンプト・チューニング(Fed-BBPT)を提案する。
Fed-BBPTは、ローカルユーザーがレギュラーアグリゲーションを通じてプロンプトジェネレータを協調的に訓練するのを支援する中央サーバーに重点を置いている。
大規模な微調整とは対照的に、Fed-BBPTは、PTMストレージとローカルマシンの微調整に関連するメモリの課題を、十分にサイドステップで解決している。
論文 参考訳(メタデータ) (2023-10-04T19:30:49Z) - A Survey on Time-Series Pre-Trained Models [37.0932706268589]
時系列マイニング (TSM) は, 実用化に大きな可能性を示す重要な研究分野である。
大量のラベル付きデータに依存するディープラーニングモデルは、TSMにうまく活用されている。
近年,コンピュータビジョンや自然言語処理における卓越した性能により,事前学習モデルが時系列領域で徐々に注目を集めている。
論文 参考訳(メタデータ) (2023-05-18T05:27:46Z) - Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。
近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文 参考訳(メタデータ) (2023-03-13T17:59:02Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - ZooD: Exploiting Model Zoo for Out-of-Distribution Generalization [65.58562481279023]
PTMのランク付けと特徴選択によるアンサンブルのためのパラダイムであるZooDを提案する。
我々は,多様なアウト・オブ・ディストリビューション(OoD)タスクのための35のモデルからなる多様なモデル動物園において,我々のパラダイムを評価する。
論文 参考訳(メタデータ) (2022-10-17T16:31:57Z) - Ranking and Tuning Pre-trained Models: A New Paradigm of Exploiting
Model Hubs [136.4492678691406]
本稿では,事前学習したモデルのランク付けとチューニングにより,モデルハブを利用する新しいパラダイムを提案する。
最高のランク付けされたPTMは、モデルのアーキテクチャを好まない場合は、微調整とデプロイが可能です。
チューニング部は、専用メソッドを超越した、複数 PTM チューニングのための新しい手法を導入する。
論文 参考訳(メタデータ) (2021-10-20T12:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。