論文の概要: Empirical Study on the Software Engineering Practices in Open Source ML
Package Repositories
- arxiv url: http://arxiv.org/abs/2012.01403v2
- Date: Tue, 8 Dec 2020 16:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:48:31.604600
- Title: Empirical Study on the Software Engineering Practices in Open Source ML
Package Repositories
- Title(参考訳): オープンソースMLパッケージリポジトリにおけるソフトウェアエンジニアリング実践に関する実証的研究
- Authors: Minke Xiu, Ellis E. Eghan, Zhen Ming (Jack) Jiang, Bram Adams
- Abstract要約: 現代の機械学習技術は、そのようなモデルを開発し、訓練し、デプロイするために、かなりの技術的専門知識とリソースを必要とする。
実践者や研究者によるこのような発見と再利用は、パブリックMLパッケージリポジトリによって対処されている。
本稿では,2つの人気MLパッケージリポジトリの構造と内容を分析する探索的研究を行う。
- 参考スコア(独自算出の注目度): 6.2894222252929985
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in Artificial Intelligence (AI), especially in Machine
Learning (ML), have introduced various practical applications (e.g., virtual
personal assistants and autonomous cars) that enhance the experience of
everyday users. However, modern ML technologies like Deep Learning require
considerable technical expertise and resources to develop, train and deploy
such models, making effective reuse of the ML models a necessity. Such
discovery and reuse by practitioners and researchers are being addressed by
public ML package repositories, which bundle up pre-trained models into
packages for publication. Since such repositories are a recent phenomenon,
there is no empirical data on their current state and challenges. Hence, this
paper conducts an exploratory study that analyzes the structure and contents of
two popular ML package repositories, TFHub and PyTorch Hub, comparing their
information elements (features and policies), package organization, package
manager functionalities and usage contexts against popular software package
repositories (npm, PyPI, and CRAN). Through these studies, we have identified
unique SE practices and challenges for sharing ML packages. These findings and
implications would be useful for data scientists, researchers and software
developers who intend to use these shared ML packages.
- Abstract(参考訳): 人工知能(AI)の最近の進歩、特に機械学習(ML)では、日々のユーザー体験を高める様々な実践的応用(仮想パーソナルアシスタントや自動運転車など)が導入されている。
しかし、ディープラーニングのような現代のML技術は、そのようなモデルを開発し、訓練し、デプロイするために、かなりの技術的専門知識とリソースを必要とし、MLモデルの効果的な再利用が必要とされる。
実践者や研究者によるこのような発見と再利用は、トレーニング済みモデルをパッケージにバンドルして公開するパブリックmlパッケージリポジトリによって対処されている。
このようなレポジトリは最近の現象であるため、現状や課題に関する実証データはない。
そこで本稿では,2つの一般的なmlパッケージリポジトリ(tfhubとpytorch hub)の構造と内容を分析し,それらの情報要素(機能とポリシ),パッケージ組織,パッケージマネージャ機能,一般的なソフトウェアパッケージリポジトリ(npm,pypi,cran)の使用状況を比較した。
これらの研究を通じて、MLパッケージを共有するためのユニークなSEプラクティスと課題を特定しました。
これらの発見と影響は、データサイエンティスト、研究者、ソフトウェア開発者がこれらの共有MLパッケージを使用するのに役立つだろう。
関連論文リスト
- Towards a Classification of Open-Source ML Models and Datasets for Software Engineering [52.257764273141184]
オープンソースの事前訓練モデル(PTM)とデータセットは、さまざまな機械学習(ML)タスクに広範なリソースを提供する。
これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。
我々は、人気のあるオープンソースのMLリポジトリであるHugging Face (HF)上で、SE指向の分類をPTMとデータセットに適用し、時間とともにPTMの進化を分析する。
論文 参考訳(メタデータ) (2024-11-14T18:52:05Z) - On the Creation of Representative Samples of Software Repositories [1.8599311233727087]
GitHubのようなソーシャルコーディングプラットフォームの出現により、研究者は研究のソースデータとして使うために何百万ものソフトウェアリポジトリにアクセスできるようになった。
現在のサンプリング法は、しばしばランダムな選択に基づいており、研究とは無関係な変数に依存している。
本稿では,ソフトウェアリポジトリの代表例を作成する手法を提案する。このような代表性は,リポジトリの個体群の特徴と実証研究の要件の両方に適切に一致している。
論文 参考訳(メタデータ) (2024-10-01T12:41:15Z) - A Large-Scale Study of Model Integration in ML-Enabled Software Systems [4.776073133338119]
機械学習(ML)とそのシステムへの組み込みは、ソフトウェア集約システムのエンジニアリングを大きく変えた。
伝統的に、ソフトウェアエンジニアリングは、ソースコードやそれらを作成するプロセスなど、手作業で作成したアーティファクトに焦点を当てている。
我々は、GitHub上で2,928以上のオープンソースシステムをカバーする、実際のML対応ソフトウェアシステムに関する最初の大規模な研究を提示する。
論文 参考訳(メタデータ) (2024-08-12T15:28:40Z) - Wildest Dreams: Reproducible Research in Privacy-preserving Neural
Network Training [2.853180143237022]
この作業は、ユーザデータのプライバシを維持することが最も重要であるMLモデルのトレーニングフェーズに重点を置いている。
我々は、現在のアプローチの理解を容易にする、しっかりとした理論的背景を提供する。
我々は,いくつかの論文の成果を再現し,その分野における既存の研究がオープンサイエンスを支援するレベルについて検討する。
論文 参考訳(メタデータ) (2024-03-06T10:25:36Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。
各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。
我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - The Product Beyond the Model -- An Empirical Study of Repositories of Open-Source ML Products [24.142477108938856]
この研究は、GitHub上の50万以上のML関連プロジェクトの中から特定された、エンドユーザ向けの262のオープンソースML製品のデータセットに貢献する。
私たちのサンプルにあるML製品の大部分は、過去のインタビュー研究よりもスタートアップスタイルの開発を代表していることが分かりました。
我々は、多くのオープンソースML製品にデータサイエンティストが限定的に関与することを含む21の発見を報告した。
論文 参考訳(メタデータ) (2023-08-08T15:19:13Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z) - Enabling Automated Machine Learning for Model-Driven AI Engineering [60.09869520679979]
モデル駆動型ソフトウェアエンジニアリングとモデル駆動型AIエンジニアリングを実現するための新しいアプローチを提案する。
特に、私たちはAutomated MLをサポートし、AI集約システムの開発において、AIの深い知識のないソフトウェアエンジニアを支援します。
論文 参考訳(メタデータ) (2022-03-06T10:12:56Z) - Enabling Un-/Semi-Supervised Machine Learning for MDSE of the Real-World
CPS/IoT Applications [0.5156484100374059]
我々は、スマートサイバー物理システム(CPS)とIoT(Internet of Things)の現実的なユースケースシナリオに対して、ドメイン固有モデル駆動ソフトウェアエンジニアリング(MDSE)をサポートする新しいアプローチを提案する。
人工知能(AI)の本質において利用可能なデータの大部分はラベルが付けられていないと我々は主張する。したがって、教師なしおよび/または半教師なしのMLアプローチが実践的な選択である。
提案手法は,既存の最先端MDSEツールと完全に実装され,CPS/IoTドメインを提供する。
論文 参考訳(メタデータ) (2021-07-06T15:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。