論文の概要: Empirical Study on the Software Engineering Practices in Open Source ML
Package Repositories
- arxiv url: http://arxiv.org/abs/2012.01403v2
- Date: Tue, 8 Dec 2020 16:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:48:31.604600
- Title: Empirical Study on the Software Engineering Practices in Open Source ML
Package Repositories
- Title(参考訳): オープンソースMLパッケージリポジトリにおけるソフトウェアエンジニアリング実践に関する実証的研究
- Authors: Minke Xiu, Ellis E. Eghan, Zhen Ming (Jack) Jiang, Bram Adams
- Abstract要約: 現代の機械学習技術は、そのようなモデルを開発し、訓練し、デプロイするために、かなりの技術的専門知識とリソースを必要とする。
実践者や研究者によるこのような発見と再利用は、パブリックMLパッケージリポジトリによって対処されている。
本稿では,2つの人気MLパッケージリポジトリの構造と内容を分析する探索的研究を行う。
- 参考スコア(独自算出の注目度): 6.2894222252929985
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in Artificial Intelligence (AI), especially in Machine
Learning (ML), have introduced various practical applications (e.g., virtual
personal assistants and autonomous cars) that enhance the experience of
everyday users. However, modern ML technologies like Deep Learning require
considerable technical expertise and resources to develop, train and deploy
such models, making effective reuse of the ML models a necessity. Such
discovery and reuse by practitioners and researchers are being addressed by
public ML package repositories, which bundle up pre-trained models into
packages for publication. Since such repositories are a recent phenomenon,
there is no empirical data on their current state and challenges. Hence, this
paper conducts an exploratory study that analyzes the structure and contents of
two popular ML package repositories, TFHub and PyTorch Hub, comparing their
information elements (features and policies), package organization, package
manager functionalities and usage contexts against popular software package
repositories (npm, PyPI, and CRAN). Through these studies, we have identified
unique SE practices and challenges for sharing ML packages. These findings and
implications would be useful for data scientists, researchers and software
developers who intend to use these shared ML packages.
- Abstract(参考訳): 人工知能(AI)の最近の進歩、特に機械学習(ML)では、日々のユーザー体験を高める様々な実践的応用(仮想パーソナルアシスタントや自動運転車など)が導入されている。
しかし、ディープラーニングのような現代のML技術は、そのようなモデルを開発し、訓練し、デプロイするために、かなりの技術的専門知識とリソースを必要とし、MLモデルの効果的な再利用が必要とされる。
実践者や研究者によるこのような発見と再利用は、トレーニング済みモデルをパッケージにバンドルして公開するパブリックmlパッケージリポジトリによって対処されている。
このようなレポジトリは最近の現象であるため、現状や課題に関する実証データはない。
そこで本稿では,2つの一般的なmlパッケージリポジトリ(tfhubとpytorch hub)の構造と内容を分析し,それらの情報要素(機能とポリシ),パッケージ組織,パッケージマネージャ機能,一般的なソフトウェアパッケージリポジトリ(npm,pypi,cran)の使用状況を比較した。
これらの研究を通じて、MLパッケージを共有するためのユニークなSEプラクティスと課題を特定しました。
これらの発見と影響は、データサイエンティスト、研究者、ソフトウェア開発者がこれらの共有MLパッケージを使用するのに役立つだろう。
関連論文リスト
- Wildest Dreams: Reproducible Research in Privacy-preserving Neural
Network Training [2.853180143237022]
この作業は、ユーザデータのプライバシを維持することが最も重要であるMLモデルのトレーニングフェーズに重点を置いている。
我々は、現在のアプローチの理解を容易にする、しっかりとした理論的背景を提供する。
我々は,いくつかの論文の成果を再現し,その分野における既存の研究がオープンサイエンスを支援するレベルについて検討する。
論文 参考訳(メタデータ) (2024-03-06T10:25:36Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM
Workflows [81.38065762300718]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - Julearn: an easy-to-use library for leakage-free evaluation and
inspection of ML models [0.23301643766310373]
我々は、Julearnの設計の背景にある理論的根拠と、その中核となる特徴を提示し、以前に公表された研究プロジェクトの3つの例を示す。
Julearnは、最も一般的なMLの落とし穴に対して、ガードを組み込んだ使いやすい環境を提供することで、機械学習の世界への参入を単純化することを目指している。
論文 参考訳(メタデータ) (2023-10-19T08:21:12Z) - A Dataset and Analysis of Open-Source Machine Learning Products [18.165820342237605]
オープンソース機械学習プロダクトをGitHubから特定し、識別する。
この結果から,MLモデルの多種多様なタイプや利用を取り巻く様々な開発プラクティスやアーキテクチャ上の決定が明らかになった。
オープンソースのML製品では、モデルテストやパイプライン自動化といった業界のベストプラクティスの証拠はほとんどありません。
論文 参考訳(メタデータ) (2023-08-08T15:19:13Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z) - Enabling Automated Machine Learning for Model-Driven AI Engineering [60.09869520679979]
モデル駆動型ソフトウェアエンジニアリングとモデル駆動型AIエンジニアリングを実現するための新しいアプローチを提案する。
特に、私たちはAutomated MLをサポートし、AI集約システムの開発において、AIの深い知識のないソフトウェアエンジニアを支援します。
論文 参考訳(メタデータ) (2022-03-06T10:12:56Z) - pymdp: A Python library for active inference in discrete state spaces [52.85819390191516]
pymdpはPythonでアクティブな推論をシミュレートするオープンソースパッケージである。
我々は,POMDPによるアクティブな推論をシミュレートする,最初のオープンソースパッケージを提供する。
論文 参考訳(メタデータ) (2022-01-11T12:18:44Z) - What can Data-Centric AI Learn from Data and ML Engineering? [17.247372757533185]
データ中心のAIは、AIコミュニティで新しくてエキサイティングな研究トピックです。
すでに多くの組織が、さまざまな“データ中心”アプリケーションを構築し、メンテナンスしている。
我々は、データ中心のAIに適用することに興味のあるデータとMLエンジニアリングからいくつかの教訓について論じる。
論文 参考訳(メタデータ) (2021-12-13T06:40:05Z) - Panoramic Learning with A Standardized Machine Learning Formalism [116.34627789412102]
本稿では,多様なMLアルゴリズムの統一的な理解を提供する学習目的の標準化された方程式を提案する。
また、新しいMLソリューションのメカニック設計のガイダンスも提供し、すべての経験を持つパノラマ学習に向けた有望な手段として機能する。
論文 参考訳(メタデータ) (2021-08-17T17:44:38Z) - Enabling Un-/Semi-Supervised Machine Learning for MDSE of the Real-World
CPS/IoT Applications [0.5156484100374059]
我々は、スマートサイバー物理システム(CPS)とIoT(Internet of Things)の現実的なユースケースシナリオに対して、ドメイン固有モデル駆動ソフトウェアエンジニアリング(MDSE)をサポートする新しいアプローチを提案する。
人工知能(AI)の本質において利用可能なデータの大部分はラベルが付けられていないと我々は主張する。したがって、教師なしおよび/または半教師なしのMLアプローチが実践的な選択である。
提案手法は,既存の最先端MDSEツールと完全に実装され,CPS/IoTドメインを提供する。
論文 参考訳(メタデータ) (2021-07-06T15:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。