論文の概要: A Dataset and Analysis of Open-Source Machine Learning Products
- arxiv url: http://arxiv.org/abs/2308.04328v1
- Date: Tue, 8 Aug 2023 15:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 15:01:06.666280
- Title: A Dataset and Analysis of Open-Source Machine Learning Products
- Title(参考訳): オープンソースの機械学習製品のデータセットと分析
- Authors: Nadia Nahar, Haoran Zhang, Grace Lewis, Shurui Zhou, Christian
K\"astner
- Abstract要約: オープンソース機械学習プロダクトをGitHubから特定し、識別する。
この結果から,MLモデルの多種多様なタイプや利用を取り巻く様々な開発プラクティスやアーキテクチャ上の決定が明らかになった。
オープンソースのML製品では、モデルテストやパイプライン自動化といった業界のベストプラクティスの証拠はほとんどありません。
- 参考スコア(独自算出の注目度): 18.165820342237605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) components are increasingly incorporated into software
products, yet developers face challenges in transitioning from ML prototypes to
products. Academic researchers struggle to propose solutions to these
challenges and evaluate interventions because they often do not have access to
close-sourced ML products from industry. In this study, we define and identify
open-source ML products, curating a dataset of 262 repositories from GitHub, to
facilitate further research and education. As a start, we explore six broad
research questions related to different development activities and report 21
findings from a sample of 30 ML products from the dataset. Our findings reveal
a variety of development practices and architectural decisions surrounding
different types and uses of ML models that offer ample opportunities for future
research innovations. We also find very little evidence of industry best
practices such as model testing and pipeline automation within the open-source
ML products, which leaves room for further investigation to understand its
potential impact on the development and eventual end-user experience for the
products.
- Abstract(参考訳): 機械学習(ML)コンポーネントはソフトウェア製品にますます取り入れられているが、開発者はMLプロトタイプから製品に移行する上での課題に直面している。
学術研究者は、これらの課題に対する解決策の提案と介入を評価するのに苦労している。
本研究では,オープンソースのMLプロダクトを定義し,GitHubから262リポジトリのデータセットをキュレートし,さらなる研究と教育を促進する。
まず、異なる開発活動に関する6つの幅広い研究課題を調査し、データセットから30のML製品のサンプルから21の調査結果を報告する。
この結果から,今後の研究革新に十分な機会を提供するMLモデルの開発プラクティスやアーキテクチャ決定の多様さが明らかになった。
また、オープンソースのML製品におけるモデルテストやパイプライン自動化といった業界のベストプラクティスの証拠はほとんどありません。
関連論文リスト
- DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM
Workflows [81.38065762300718]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - Large Language Models for Generative Information Extraction: A Survey [93.28676955662002]
情報抽出は、平易な自然言語テキストから構造的知識を抽出することを目的としている。
生成型大規模言語モデル(LLM)は、テキストの理解と生成において顕著な能力を示した。
LLMは生成パラダイムに基づいたIEタスクに対して実行可能なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - Benchmarking Large Language Models As AI Research Agents [105.65277755304277]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。
長期計画や幻覚など,LSMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - ExpeL: LLM Agents Are Experiential Learners [60.54312035818746]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z) - Reasonable Scale Machine Learning with Open-Source Metaflow [2.637746074346334]
既存のツールを再購入しても、現在の生産性の問題は解決しない、と私たちは主張します。
私たちは、データ実践者の生産性を高めるために明示的に設計された、MLプロジェクトのためのオープンソースのフレームワークであるMetaflowを紹介します。
論文 参考訳(メタデータ) (2023-03-21T11:28:09Z) - Berlin V2X: A Machine Learning Dataset from Multiple Vehicles and Radio
Access Technologies [56.77079930521082]
我々は,MLに基づく多種多様な研究への道を開くための詳細な測定キャンペーンを実施してきた。
得られたデータセットは、携帯電話(と2つの異なるオペレーター)とサイドリンク無線アクセス技術の両方のために、様々な都市環境にまたがるGPS位置の無線測定を提供する。
私たちは、MLが克服しなければならない課題と、MLが活用できる機能について、データの初期分析を提供しています。
論文 参考訳(メタデータ) (2022-12-20T15:26:39Z) - Machine Learning for Software Engineering: A Tertiary Study [13.832268599253412]
機械学習(ML)技術は、ソフトウェアエンジニアリング(SE)ライフサイクルアクティビティの有効性を高める。
2009~2022年に発行されたML for SEで, 体系的, 品質評価, 要約, 分類を行い, 初等研究6,117件について検討した。
MLに最も取り組まれているSE領域は、ソフトウェアの品質とテストである。
論文 参考訳(メタデータ) (2022-11-17T09:19:53Z) - Machine Learning Operations (MLOps): Overview, Definition, and
Architecture [0.0]
機械学習オペレーション(MLOps)のパラダイムは、この問題に対処する。
MLOpsはいまだ曖昧な用語であり、研究者や専門家にとっての結果は曖昧である。
必要なコンポーネントや役割、関連するアーキテクチャや原則をまとめて紹介します。
論文 参考訳(メタデータ) (2022-05-04T19:38:48Z) - Machine Learning Application Development: Practitioners' Insights [18.114724750441724]
MLアプリケーション開発の課題とベストプラクティスを理解することを目的とした調査について報告する。
80人の実践者から得られた結果を17の発見にまとめ、MLアプリケーション開発の課題とベストプラクティスを概説する。
報告された課題が、MLベースのアプリケーションのエンジニアリングプロセスと品質を改善するために調査すべきトピックについて、研究コミュニティに知らせてくれることを期待しています。
論文 参考訳(メタデータ) (2021-12-31T03:38:37Z) - Panoramic Learning with A Standardized Machine Learning Formalism [116.34627789412102]
本稿では,多様なMLアルゴリズムの統一的な理解を提供する学習目的の標準化された方程式を提案する。
また、新しいMLソリューションのメカニック設計のガイダンスも提供し、すべての経験を持つパノラマ学習に向けた有望な手段として機能する。
論文 参考訳(メタデータ) (2021-08-17T17:44:38Z) - Empirical Study on the Software Engineering Practices in Open Source ML
Package Repositories [6.2894222252929985]
現代の機械学習技術は、そのようなモデルを開発し、訓練し、デプロイするために、かなりの技術的専門知識とリソースを必要とする。
実践者や研究者によるこのような発見と再利用は、パブリックMLパッケージリポジトリによって対処されている。
本稿では,2つの人気MLパッケージリポジトリの構造と内容を分析する探索的研究を行う。
論文 参考訳(メタデータ) (2020-12-02T18:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。