論文の概要: PeaTMOSS: Mining Pre-Trained Models in Open-Source Software
- arxiv url: http://arxiv.org/abs/2310.03620v1
- Date: Thu, 5 Oct 2023 15:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 15:29:56.887794
- Title: PeaTMOSS: Mining Pre-Trained Models in Open-Source Software
- Title(参考訳): PeaTMOSS: オープンソースソフトウェアで事前トレーニングされたモデルをマイニング
- Authors: Wenxin Jiang, Jason Jones, Jerin Yasmin, Nicholas Synovic, Rajeev
Sashti, Sophie Chen, George K. Thiruvathukal, Yuan Tian, James C. Davis
- Abstract要約: PeaTMOSSデータセットを提示する。 オープンソースソフトウェアにおける事前学習モデル。
PeaTMOSSには3つの部分がある: スナップショットは281,638 PTM、 (2) PTMを使用するオープンソースソフトウェアリポジトリ27,270、(3) PTMとそれを使用するプロジェクトの間のマッピング。
- 参考スコア(独自算出の注目度): 6.243303627949341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing and training deep learning models is expensive, so software
engineers have begun to reuse pre-trained deep learning models (PTMs) and
fine-tune them for downstream tasks. Despite the wide-spread use of PTMs, we
know little about the corresponding software engineering behaviors and
challenges.
To enable the study of software engineering with PTMs, we present the
PeaTMOSS dataset: Pre-Trained Models in Open-Source Software. PeaTMOSS has
three parts: a snapshot of (1) 281,638 PTMs, (2) 27,270 open-source software
repositories that use PTMs, and (3) a mapping between PTMs and the projects
that use them. We challenge PeaTMOSS miners to discover software engineering
practices around PTMs. A demo and link to the full dataset are available at:
https://github.com/PurdueDualityLab/PeaTMOSS-Demos.
- Abstract(参考訳): ディープラーニングモデルの開発とトレーニングは高価であるため、ソフトウェアエンジニアはトレーニング済みのディープラーニングモデル(PTM)を再利用し、下流タスクのために微調整し始めている。
PTMが広く使われているにもかかわらず、対応するソフトウェアエンジニアリングの振る舞いや課題についてはほとんど分かっていません。
PTMを用いたソフトウェアエンジニアリングの研究を可能にするため,オープンソースソフトウェアにおけるPeaTMOSSデータセット:事前学習モデルを提案する。
PeaTMOSSには,(1)281,638 PTMのスナップショット,(2)PTMを使用するオープンソースソフトウェアリポジトリ27,270,(3)PTMとそれを使用するプロジェクト間のマッピングの3つの部分がある。
私たちはPeaTMOSSの鉱山労働者に挑戦し、PTMに関するソフトウェアエンジニアリングの実践を見つけます。
完全なデータセットのデモとリンクは、https://github.com/PurdueDualityLab/PeaTMOSS-Demos.comで公開されている。
関連論文リスト
- Towards a Classification of Open-Source ML Models and Datasets for Software Engineering [52.257764273141184]
オープンソースの事前訓練モデル(PTM)とデータセットは、さまざまな機械学習(ML)タスクに広範なリソースを提供する。
これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。
我々は、人気のあるオープンソースのMLリポジトリであるHugging Face (HF)上で、SE指向の分類をPTMとデータセットに適用し、時間とともにPTMの進化を分析する。
論文 参考訳(メタデータ) (2024-11-14T18:52:05Z) - PeaTMOSS: A Dataset and Initial Analysis of Pre-Trained Models in
Open-Source Software [6.243303627949341]
本稿では,281,638PTMのメタデータと全PTMの詳細なスナップショットを含むPeaTMOSSデータセットを提案する。
データセットには15,129のダウンストリームGitHubリポジトリから2,530のPTMへの44,337のマッピングが含まれている。
我々の分析は、PTMサプライチェーンに関する最初の要約統計を提供し、PTM開発の動向とPTMパッケージドキュメンテーションの共通の欠点を示している。
論文 参考訳(メタデータ) (2024-02-01T15:55:50Z) - Efficient Federated Prompt Tuning for Black-box Large Pre-trained Models [62.838689691468666]
我々は,各ローカルデータセットを最適に活用するためのフェデレートブラックボックス・プロンプト・チューニング(Fed-BBPT)を提案する。
Fed-BBPTは、ローカルユーザーがレギュラーアグリゲーションを通じてプロンプトジェネレータを協調的に訓練するのを支援する中央サーバーに重点を置いている。
大規模な微調整とは対照的に、Fed-BBPTは、PTMストレージとローカルマシンの微調整に関連するメモリの課題を、十分にサイドステップで解決している。
論文 参考訳(メタデータ) (2023-10-04T19:30:49Z) - Naming Practices of Pre-Trained Models in Hugging Face [4.956536094440504]
PTM(Pre-Trained Models)は、コンピュータシステムにおいて、デプロイ前に品質や性能に適応するために使用される。
エンジニアはデプロイメント前に品質やパフォーマンスに適応する。
以前の調査では、モデル名は必ずしも適切に選択されている訳ではなく、時に誤っている、と報告されていた。
本稿では,Hugging Face PTMレジストリにおいて,PTM命名の実践に関する実証的研究を行った。
論文 参考訳(メタデータ) (2023-10-02T21:13:32Z) - Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。
近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文 参考訳(メタデータ) (2023-03-13T17:59:02Z) - An Empirical Study of Pre-Trained Model Reuse in the Hugging Face Deep
Learning Model Registry [2.1346819928536687]
機械学習エンジニアが大規模事前学習モデル(PTM)の再利用を開始
私たちは、最も人気のあるPTMエコシステムであるHugging Faceの実践者12人にインタビューして、PTM再利用のプラクティスと課題を学びました。
PTM再利用の3つの課題は、属性の欠如、クレームと実際のパフォーマンスの相違、モデルリスクである。
論文 参考訳(メタデータ) (2023-03-05T02:28:15Z) - Ranking and Tuning Pre-trained Models: A New Paradigm of Exploiting
Model Hubs [136.4492678691406]
本稿では,事前学習したモデルのランク付けとチューニングにより,モデルハブを利用する新しいパラダイムを提案する。
最高のランク付けされたPTMは、モデルのアーキテクチャを好まない場合は、微調整とデプロイが可能です。
チューニング部は、専用メソッドを超越した、複数 PTM チューニングのための新しい手法を導入する。
論文 参考訳(メタデータ) (2021-10-20T12:59:23Z) - EasyTransfer -- A Simple and Scalable Deep Transfer Learning Platform
for NLP Applications [65.87067607849757]
EasyTransferは自然言語処理(NLP)アプリケーションのためのディープトランスファー学習アルゴリズムを開発するためのプラットフォームである。
EasyTransfer は ModelZoo で様々な NLP モデルをサポートしている。
EasyTransferは現在Alibabaにデプロイされており、さまざまなビジネスシナリオをサポートしている。
論文 参考訳(メタデータ) (2020-11-18T18:41:27Z) - The Microsoft Toolkit of Multi-Task Deep Neural Networks for Natural
Language Understanding [97.85957811603251]
MT-DNNはオープンソースの自然言語理解(NLU)ツールキットであり、研究者や開発者がカスタマイズされたディープラーニングモデルを訓練しやすくする。
PyTorchとTransformersをベースとして開発されたMT-DNNは、幅広いNLUタスクの迅速なカスタマイズを容易にするように設計されている。
MT-DNNのユニークな特徴は、対戦型マルチタスク学習パラダイムを用いた堅牢で移動可能な学習のサポートである。
論文 参考訳(メタデータ) (2020-02-19T03:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。