論文の概要: How do Pre-Trained Models Support Software Engineering? An Empirical Study in Hugging Face
- arxiv url: http://arxiv.org/abs/2506.03013v1
- Date: Tue, 03 Jun 2025 15:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.823336
- Title: How do Pre-Trained Models Support Software Engineering? An Empirical Study in Hugging Face
- Title(参考訳): 事前訓練されたモデルはソフトウェアエンジニアリングをどのようにサポートするか? ジャグリングフェイスにおける実証的研究
- Authors: Alexandra González, Xavier Franch, David Lo, Silverio Martínez-Fernández,
- Abstract要約: オープンソースの事前訓練モデル(PTM)は、さまざまな機械学習(ML)タスクに広範なリソースを提供する。
これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。
私たちは147のSEタスクを含む分類法を導き、人気のあるオープンソースMLリポジトリであるHugging Face (HF)において、SE指向の分類をPTMに適用する。
PTMではコード生成が最も一般的なSEタスクであるのに対して、要件エンジニアリングとソフトウェア設計のアクティビティは限定的な注目を集めている。
- 参考スコア(独自算出の注目度): 52.257764273141184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Source Pre-Trained Models (PTMs) provide extensive resources for various Machine Learning (ML) tasks, yet these resources lack a classification tailored to Software Engineering (SE) needs. To address this gap, we derive a taxonomy encompassing 147 SE tasks and apply an SE-oriented classification to PTMs in a popular open-source ML repository, Hugging Face (HF). Our repository mining study began with a systematically gathered database of PTMs from the HF API, considering their model card descriptions and metadata, and the abstract of the associated arXiv papers. We confirmed SE relevance through multiple filtering steps: detecting outliers, identifying near-identical PTMs, and the use of Gemini 2.0 Flash, which was validated with five pilot studies involving three human annotators. This approach uncovered 2,205 SE PTMs. We find that code generation is the most common SE task among PTMs, primarily focusing on software implementation, while requirements engineering and software design activities receive limited attention. In terms of ML tasks, text generation dominates within SE PTMs. Notably, the number of SE PTMs has increased markedly since 2023 Q2. Our classification provides a solid foundation for future automated SE scenarios, such as the sampling and selection of suitable PTMs.
- Abstract(参考訳): オープンソースの事前訓練モデル(PTM)は、さまざまな機械学習(ML)タスクに広範なリソースを提供しますが、これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がありません。
このギャップに対処するために、147のSEタスクを含む分類法を導き、人気のあるオープンソースのMLリポジトリであるHugging Face (HF)で、SE指向の分類をPTMに適用する。
我々のリポジトリマイニング研究は,HF APIから収集したPTMのモデルカード記述とメタデータと関連するarXiv論文の抽象化を考慮し,体系的に収集されたデータベースから始まった。
我々は,3つのアノテータを含む5つのパイロット実験で検証した,複数のフィルタステップを通じてSEの関連性を確認した: 異常値の検出,身近なPTMの同定,およびGemini 2.0 Flashの使用。
このアプローチにより2,205個のSE PTMが発見された。
PTMの中でコード生成が最も一般的なSEタスクであり、主にソフトウェア実装に焦点を当てているのに対して、要求工学とソフトウェア設計活動は限定的な注目を集めている。
MLタスクの観点では、テキスト生成はSE PTM内で優位である。
特に、2023年Q2以降、SE PTMの数は著しく増加している。
我々の分類は、適切なPTMのサンプリングや選択など、将来の自動化されたSEシナリオのための確かな基盤を提供する。
関連論文リスト
- Towards a Classification of Open-Source ML Models and Datasets for Software Engineering [52.257764273141184]
オープンソースの事前訓練モデル(PTM)とデータセットは、さまざまな機械学習(ML)タスクに広範なリソースを提供する。
これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。
我々は、人気のあるオープンソースのMLリポジトリであるHugging Face (HF)上で、SE指向の分類をPTMとデータセットに適用し、時間とともにPTMの進化を分析する。
論文 参考訳(メタデータ) (2024-11-14T18:52:05Z) - Automated categorization of pre-trained models for software engineering: A case study with a Hugging Face dataset [9.218130273952383]
ソフトウェアエンジニアリング活動は、事前訓練されたモデル(PTM)の出現によって革新した。
Hugging Face (HF)プラットフォームは、いくつかのモデルを収集、保存、キュレーションすることで、PTMの使用を単純化する。
本稿では,SEタスクに対するPTMの自動分類を実現するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-21T20:26:17Z) - PeaTMOSS: A Dataset and Initial Analysis of Pre-Trained Models in
Open-Source Software [6.243303627949341]
本稿では,281,638PTMのメタデータと全PTMの詳細なスナップショットを含むPeaTMOSSデータセットを提案する。
データセットには15,129のダウンストリームGitHubリポジトリから2,530のPTMへの44,337のマッピングが含まれている。
我々の分析は、PTMサプライチェーンに関する最初の要約統計を提供し、PTM開発の動向とPTMパッケージドキュメンテーションの共通の欠点を示している。
論文 参考訳(メタデータ) (2024-02-01T15:55:50Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - PeaTMOSS: Mining Pre-Trained Models in Open-Source Software [6.243303627949341]
PeaTMOSSデータセットを提示する。 オープンソースソフトウェアにおける事前学習モデル。
PeaTMOSSには3つの部分がある: スナップショットは281,638 PTM、 (2) PTMを使用するオープンソースソフトウェアリポジトリ27,270、(3) PTMとそれを使用するプロジェクトの間のマッピング。
論文 参考訳(メタデータ) (2023-10-05T15:58:45Z) - Naming Practices of Pre-Trained Models in Hugging Face [4.956536094440504]
PTM(Pre-Trained Models)は、コンピュータシステムにおいて、デプロイ前に品質や性能に適応するために使用される。
エンジニアはデプロイメント前に品質やパフォーマンスに適応する。
以前の調査では、モデル名は必ずしも適切に選択されている訳ではなく、時に誤っている、と報告されていた。
本稿では,Hugging Face PTMレジストリにおいて,PTM命名の実践に関する実証的研究を行った。
論文 参考訳(メタデータ) (2023-10-02T21:13:32Z) - Ranking and Tuning Pre-trained Models: A New Paradigm of Exploiting
Model Hubs [136.4492678691406]
本稿では,事前学習したモデルのランク付けとチューニングにより,モデルハブを利用する新しいパラダイムを提案する。
最高のランク付けされたPTMは、モデルのアーキテクチャを好まない場合は、微調整とデプロイが可能です。
チューニング部は、専用メソッドを超越した、複数 PTM チューニングのための新しい手法を導入する。
論文 参考訳(メタデータ) (2021-10-20T12:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。