Fugu-MT 論文翻訳(概要): Towards a Classification of Open-Source ML Models and Datasets for Software Engineering

論文の概要: Towards a Classification of Open-Source ML Models and Datasets for Software Engineering

arxiv url: http://arxiv.org/abs/2411.09683v1
Date: Thu, 14 Nov 2024 18:52:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.806737
Title: Towards a Classification of Open-Source ML Models and Datasets for Software Engineering
Title（参考訳）: ソフトウェア工学のためのオープンソースMLモデルとデータセットの分類に向けて
Authors: Alexandra González, Xavier Franch, David Lo, Silverio Martínez-Fernández,
Abstract要約: オープンソースの事前訓練モデル(PTM)とデータセットは、さまざまな機械学習(ML)タスクに広範なリソースを提供する。これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。我々は、人気のあるオープンソースのMLリポジトリであるHugging Face (HF)上で、SE指向の分類をPTMとデータセットに適用し、時間とともにPTMの進化を分析する。
参考スコア（独自算出の注目度）: 52.257764273141184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Background: Open-Source Pre-Trained Models (PTMs) and datasets provide extensive resources for various Machine Learning (ML) tasks, yet these resources lack a classification tailored to Software Engineering (SE) needs. Aims: We apply an SE-oriented classification to PTMs and datasets on a popular open-source ML repository, Hugging Face (HF), and analyze the evolution of PTMs over time. Method: We conducted a repository mining study. We started with a systematically gathered database of PTMs and datasets from the HF API. Our selection was refined by analyzing model and dataset cards and metadata, such as tags, and confirming SE relevance using Gemini 1.5 Pro. All analyses are replicable, with a publicly accessible replication package. Results: The most common SE task among PTMs and datasets is code generation, with a primary focus on software development and limited attention to software management. Popular PTMs and datasets mainly target software development. Among ML tasks, text generation is the most common in SE PTMs and datasets. There has been a marked increase in PTMs for SE since 2023 Q2. Conclusions: This study underscores the need for broader task coverage to enhance the integration of ML within SE practices.
Abstract（参考訳）: 背景: オープンソースの事前学習モデル(PTM)とデータセットは、さまざまな機械学習(ML)タスクに広範なリソースを提供しますが、これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がありません。 Aims: 人気のあるオープンソースのMLリポジトリであるHugging Face(HF)上で,SE指向の分類をPTMとデータセットに適用し,時間とともにPTMの進化を分析する。方法: レポジトリマイニング研究を行った。私たちはまず、HF APIからPTMとデータセットを体系的に収集したデータベースから始めました。モデルやデータセットカード,タグなどのメタデータを解析し,Gemini 1.5 Proを用いたSE関連性を確認することで,その選択を改良した。すべての分析は複製可能で、公開アクセス可能なレプリケーションパッケージがある。結果: PTMやデータセットで最も一般的なSEタスクはコード生成です。一般的なPTMとデータセットは主にソフトウェア開発をターゲットにしています。 MLタスクの中で、テキスト生成が最も一般的なのはSE PTMとデータセットである。 2023年Q2以降、SEのPTMは著しく増加した。結論: この研究は、SEプラクティスにおけるMLの統合を強化するために、より広範なタスクカバレッジの必要性を強調します。

関連論文リスト

How do Pre-Trained Models Support Software Engineering? An Empirical Study in Hugging Face [52.257764273141184]
オープンソースの事前訓練モデル(PTM)は、さまざまな機械学習(ML)タスクに広範なリソースを提供する。これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。私たちは147のSEタスクを含む分類法を導き、人気のあるオープンソースMLリポジトリであるHugging Face (HF)において、SE指向の分類をPTMに適用する。 PTMではコード生成が最も一般的なSEタスクであるのに対して、要件エンジニアリングとソフトウェア設計のアクティビティは限定的な注目を集めている。
論文参考訳（メタデータ） (2025-06-03T15:51:17Z)
On Domain-Specific Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。データ合成、トレーニングパイプライン、タスク評価に重点を置いています。バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文参考訳（メタデータ） (2024-11-29T18:42:28Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。 MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文参考訳（メタデータ） (2024-07-11T15:08:11Z)
FuseGen: PLM Fusion for Data-generation based Zero-shot Learning [18.51772808242954]
FuseGenは、新しいデータ生成ベースのゼロショット学習フレームワークである。合成データセットからのサブセット選択のための新しい基準を導入する。選択されたサブセットは、各PLMに対してコンテキスト内フィードバックを提供し、データセットの品質を向上する。
論文参考訳（メタデータ） (2024-06-18T11:55:05Z)
Automated categorization of pre-trained models for software engineering: A case study with a Hugging Face dataset [9.218130273952383]
ソフトウェアエンジニアリング活動は、事前訓練されたモデル(PTM)の出現によって革新した。 Hugging Face (HF)プラットフォームは、いくつかのモデルを収集、保存、キュレーションすることで、PTMの使用を単純化する。本稿では,SEタスクに対するPTMの自動分類を実現するためのアプローチを提案する。
論文参考訳（メタデータ） (2024-05-21T20:26:17Z)
PeaTMOSS: A Dataset and Initial Analysis of Pre-Trained Models in Open-Source Software [6.243303627949341]
本稿では,281,638PTMのメタデータと全PTMの詳細なスナップショットを含むPeaTMOSSデータセットを提案する。データセットには15,129のダウンストリームGitHubリポジトリから2,530のPTMへの44,337のマッピングが含まれている。我々の分析は、PTMサプライチェーンに関する最初の要約統計を提供し、PTM開発の動向とPTMパッケージドキュメンテーションの共通の欠点を示している。
論文参考訳（メタデータ） (2024-02-01T15:55:50Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
PeaTMOSS: Mining Pre-Trained Models in Open-Source Software [6.243303627949341]
PeaTMOSSデータセットを提示する。オープンソースソフトウェアにおける事前学習モデル。 PeaTMOSSには3つの部分がある: スナップショットは281,638 PTM、 (2) PTMを使用するオープンソースソフトウェアリポジトリ27,270、(3) PTMとそれを使用するプロジェクトの間のマッピング。
論文参考訳（メタデータ） (2023-10-05T15:58:45Z)
Efficient Federated Prompt Tuning for Black-box Large Pre-trained Models [62.838689691468666]
我々は,各ローカルデータセットを最適に活用するためのフェデレートブラックボックス・プロンプト・チューニング(Fed-BBPT)を提案する。 Fed-BBPTは、ローカルユーザーがレギュラーアグリゲーションを通じてプロンプトジェネレータを協調的に訓練するのを支援する中央サーバーに重点を置いている。大規模な微調整とは対照的に、Fed-BBPTは、PTMストレージとローカルマシンの微調整に関連するメモリの課題を、十分にサイドステップで解決している。
論文参考訳（メタデータ） (2023-10-04T19:30:49Z)
DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文参考訳（メタデータ） (2022-07-20T17:47:54Z)
Evaluating Pre-Trained Models for User Feedback Analysis in Software Engineering: A Study on Classification of App-Reviews [2.66512000865131]
アプリレビュー分類のための事前学習型ニューラルネットワークモデル(PTM)の精度と時間効率について検討した。複数の設定でPTMを評価するために,異なる研究をセットアップした。いずれの場合も、MicroとMacro Precision、Recall、F1スコアが使用されます。
論文参考訳（メタデータ） (2021-04-12T23:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。