Fugu-MT 論文翻訳(概要): Empirical Study on the Software Engineering Practices in Open Source ML Package Repositories

論文の概要: Empirical Study on the Software Engineering Practices in Open Source ML Package Repositories

arxiv url: http://arxiv.org/abs/2012.01403v2
Date: Tue, 8 Dec 2020 16:02:00 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-25 03:48:31.604600
Title: Empirical Study on the Software Engineering Practices in Open Source ML Package Repositories
Title（参考訳）: オープンソースMLパッケージリポジトリにおけるソフトウェアエンジニアリング実践に関する実証的研究
Authors: Minke Xiu, Ellis E. Eghan, Zhen Ming (Jack) Jiang, Bram Adams
Abstract要約: 現代の機械学習技術は、そのようなモデルを開発し、訓練し、デプロイするために、かなりの技術的専門知識とリソースを必要とする。実践者や研究者によるこのような発見と再利用は、パブリックMLパッケージリポジトリによって対処されている。本稿では,2つの人気MLパッケージリポジトリの構造と内容を分析する探索的研究を行う。
参考スコア（独自算出の注目度）: 6.2894222252929985
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advances in Artificial Intelligence (AI), especially in Machine Learning (ML), have introduced various practical applications (e.g., virtual personal assistants and autonomous cars) that enhance the experience of everyday users. However, modern ML technologies like Deep Learning require considerable technical expertise and resources to develop, train and deploy such models, making effective reuse of the ML models a necessity. Such discovery and reuse by practitioners and researchers are being addressed by public ML package repositories, which bundle up pre-trained models into packages for publication. Since such repositories are a recent phenomenon, there is no empirical data on their current state and challenges. Hence, this paper conducts an exploratory study that analyzes the structure and contents of two popular ML package repositories, TFHub and PyTorch Hub, comparing their information elements (features and policies), package organization, package manager functionalities and usage contexts against popular software package repositories (npm, PyPI, and CRAN). Through these studies, we have identified unique SE practices and challenges for sharing ML packages. These findings and implications would be useful for data scientists, researchers and software developers who intend to use these shared ML packages.
Abstract（参考訳）: 人工知能(AI)の最近の進歩、特に機械学習(ML)では、日々のユーザー体験を高める様々な実践的応用(仮想パーソナルアシスタントや自動運転車など)が導入されている。しかし、ディープラーニングのような現代のML技術は、そのようなモデルを開発し、訓練し、デプロイするために、かなりの技術的専門知識とリソースを必要とし、MLモデルの効果的な再利用が必要とされる。実践者や研究者によるこのような発見と再利用は、トレーニング済みモデルをパッケージにバンドルして公開するパブリックmlパッケージリポジトリによって対処されている。このようなレポジトリは最近の現象であるため、現状や課題に関する実証データはない。そこで本稿では,2つの一般的なmlパッケージリポジトリ(tfhubとpytorch hub)の構造と内容を分析し,それらの情報要素(機能とポリシ),パッケージ組織,パッケージマネージャ機能,一般的なソフトウェアパッケージリポジトリ(npm,pypi,cran)の使用状況を比較した。これらの研究を通じて、MLパッケージを共有するためのユニークなSEプラクティスと課題を特定しました。これらの発見と影響は、データサイエンティスト、研究者、ソフトウェア開発者がこれらの共有MLパッケージを使用するのに役立つだろう。

関連論文リスト

Software Dependencies 2.0: An Empirical Study of Reuse and Integration of Pre-Trained Models in Open-Source Projects [9.22889135297242]
事前訓練されたモデル(PTM)は、前もってトレーニングされた機械学習モデルであり、しばしば大規模データに基づいており、新しいタスクのために再利用することができる。 Software Dependencies 2.0は、Software Dependencies 2.0という、ソフトウェア依存の新しいクラスを導入します。
論文参考訳（メタデータ） (2025-09-07T15:00:22Z)
ExeKGLib: A Platform for Machine Learning Analytics based on Knowledge Graphs [6.611237989022405]
ExeKGLibはグラフィカルなインターフェース層で拡張されたPythonライブラリで、最小限のML知識を持つユーザがMLパイプラインを構築することができる。これは、MLの知識を単純な言葉で、非MLの専門家にエンコードする知識グラフに依存することで達成される。
論文参考訳（メタデータ） (2025-08-01T07:45:49Z)
How do Pre-Trained Models Support Software Engineering? An Empirical Study in Hugging Face [52.257764273141184]
オープンソースの事前訓練モデル(PTM)は、さまざまな機械学習(ML)タスクに広範なリソースを提供する。これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。私たちは147のSEタスクを含む分類法を導き、人気のあるオープンソースMLリポジトリであるHugging Face (HF)において、SE指向の分類をPTMに適用する。 PTMではコード生成が最も一般的なSEタスクであるのに対して、要件エンジニアリングとソフトウェア設計のアクティビティは限定的な注目を集めている。
論文参考訳（メタデータ） (2025-06-03T15:51:17Z)
Towards a Classification of Open-Source ML Models and Datasets for Software Engineering [52.257764273141184]
オープンソースの事前訓練モデル(PTM)とデータセットは、さまざまな機械学習(ML)タスクに広範なリソースを提供する。これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。我々は、人気のあるオープンソースのMLリポジトリであるHugging Face (HF)上で、SE指向の分類をPTMとデータセットに適用し、時間とともにPTMの進化を分析する。
論文参考訳（メタデータ） (2024-11-14T18:52:05Z)
On the Creation of Representative Samples of Software Repositories [1.8599311233727087]
GitHubのようなソーシャルコーディングプラットフォームの出現により、研究者は研究のソースデータとして使うために何百万ものソフトウェアリポジトリにアクセスできるようになった。現在のサンプリング法は、しばしばランダムな選択に基づいており、研究とは無関係な変数に依存している。本稿では,ソフトウェアリポジトリの代表例を作成する手法を提案する。このような代表性は,リポジトリの個体群の特徴と実証研究の要件の両方に適切に一致している。
論文参考訳（メタデータ） (2024-10-01T12:41:15Z)
A Large-Scale Study of Model Integration in ML-Enabled Software Systems [4.776073133338119]
機械学習(ML)とそのシステムへの組み込みは、ソフトウェア集約システムのエンジニアリングを大きく変えた。伝統的に、ソフトウェアエンジニアリングは、ソースコードやそれらを作成するプロセスなど、手作業で作成したアーティファクトに焦点を当てている。我々は、GitHub上で2,928以上のオープンソースシステムをカバーする、実際のML対応ソフトウェアシステムに関する最初の大規模な研究を提示する。
論文参考訳（メタデータ） (2024-08-12T15:28:40Z)
Wildest Dreams: Reproducible Research in Privacy-preserving Neural Network Training [2.853180143237022]
この作業は、ユーザデータのプライバシを維持することが最も重要であるMLモデルのトレーニングフェーズに重点を置いている。我々は、現在のアプローチの理解を容易にする、しっかりとした理論的背景を提供する。我々は,いくつかの論文の成果を再現し,その分野における既存の研究がオープンサイエンスを支援するレベルについて検討する。
論文参考訳（メタデータ） (2024-03-06T10:25:36Z)
DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。 DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文参考訳（メタデータ） (2024-02-16T00:10:26Z)
Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文参考訳（メタデータ） (2023-12-29T14:25:22Z)
Machine Learning-Enabled Software and System Architecture Frameworks [48.87872564630711]
データサイエンスと機械学習に関連する関心事、例えばデータサイエンティストやデータエンジニアの利害関係者は、まだ既存のアーキテクチャフレームワークには含まれていない。 10か国25以上の組織から61名の被験者を対象に調査を行った。
論文参考訳（メタデータ） (2023-08-09T21:54:34Z)
The Product Beyond the Model -- An Empirical Study of Repositories of Open-Source ML Products [24.142477108938856]
この研究は、GitHub上の50万以上のML関連プロジェクトの中から特定された、エンドユーザ向けの262のオープンソースML製品のデータセットに貢献する。私たちのサンプルにあるML製品の大部分は、過去のインタビュー研究よりもスタートアップスタイルの開発を代表していることが分かりました。我々は、多くのオープンソースML製品にデータサイエンティストが限定的に関与することを含む21の発見を報告した。
論文参考訳（メタデータ） (2023-08-08T15:19:13Z)
CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。 CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文参考訳（メタデータ） (2023-05-31T05:24:48Z)
OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文参考訳（メタデータ） (2023-03-01T13:35:22Z)
A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。 MLモデルは古いデータをよく記憶します。機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文参考訳（メタデータ） (2022-09-06T08:51:53Z)
What can Data-Centric AI Learn from Data and ML Engineering? [17.247372757533185]
データ中心のAIは、AIコミュニティで新しくてエキサイティングな研究トピックです。すでに多くの組織が、さまざまな“データ中心”アプリケーションを構築し、メンテナンスしている。我々は、データ中心のAIに適用することに興味のあるデータとMLエンジニアリングからいくつかの教訓について論じる。
論文参考訳（メタデータ） (2021-12-13T06:40:05Z)
Enabling Un-/Semi-Supervised Machine Learning for MDSE of the Real-World CPS/IoT Applications [0.5156484100374059]
我々は、スマートサイバー物理システム(CPS)とIoT(Internet of Things)の現実的なユースケースシナリオに対して、ドメイン固有モデル駆動ソフトウェアエンジニアリング(MDSE)をサポートする新しいアプローチを提案する。人工知能(AI)の本質において利用可能なデータの大部分はラベルが付けられていないと我々は主張する。したがって、教師なしおよび/または半教師なしのMLアプローチが実践的な選択である。提案手法は,既存の最先端MDSEツールと完全に実装され,CPS/IoTドメインを提供する。
論文参考訳（メタデータ） (2021-07-06T15:51:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。