Fugu-MT 論文翻訳(概要): A Dataset and Analysis of Open-Source Machine Learning Products

論文の概要: A Dataset and Analysis of Open-Source Machine Learning Products

arxiv url: http://arxiv.org/abs/2308.04328v1
Date: Tue, 8 Aug 2023 15:19:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 15:01:06.666280
Title: A Dataset and Analysis of Open-Source Machine Learning Products
Title（参考訳）: オープンソースの機械学習製品のデータセットと分析
Authors: Nadia Nahar, Haoran Zhang, Grace Lewis, Shurui Zhou, Christian K\"astner
Abstract要約: オープンソース機械学習プロダクトをGitHubから特定し、識別する。この結果から,MLモデルの多種多様なタイプや利用を取り巻く様々な開発プラクティスやアーキテクチャ上の決定が明らかになった。オープンソースのML製品では、モデルテストやパイプライン自動化といった業界のベストプラクティスの証拠はほとんどありません。
参考スコア（独自算出の注目度）: 18.165820342237605
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning (ML) components are increasingly incorporated into software products, yet developers face challenges in transitioning from ML prototypes to products. Academic researchers struggle to propose solutions to these challenges and evaluate interventions because they often do not have access to close-sourced ML products from industry. In this study, we define and identify open-source ML products, curating a dataset of 262 repositories from GitHub, to facilitate further research and education. As a start, we explore six broad research questions related to different development activities and report 21 findings from a sample of 30 ML products from the dataset. Our findings reveal a variety of development practices and architectural decisions surrounding different types and uses of ML models that offer ample opportunities for future research innovations. We also find very little evidence of industry best practices such as model testing and pipeline automation within the open-source ML products, which leaves room for further investigation to understand its potential impact on the development and eventual end-user experience for the products.
Abstract（参考訳）: 機械学習(ML)コンポーネントはソフトウェア製品にますます取り入れられているが、開発者はMLプロトタイプから製品に移行する上での課題に直面している。学術研究者は、これらの課題に対する解決策の提案と介入を評価するのに苦労している。本研究では,オープンソースのMLプロダクトを定義し,GitHubから262リポジトリのデータセットをキュレートし,さらなる研究と教育を促進する。まず、異なる開発活動に関する6つの幅広い研究課題を調査し、データセットから30のML製品のサンプルから21の調査結果を報告する。この結果から,今後の研究革新に十分な機会を提供するMLモデルの開発プラクティスやアーキテクチャ決定の多様さが明らかになった。また、オープンソースのML製品におけるモデルテストやパイプライン自動化といった業界のベストプラクティスの証拠はほとんどありません。

関連論文リスト

Open-Source Multimodal Moxin Models with Moxin-VLM and Moxin-VLA [53.68989489261506]
Moxin 7Bは、完全にオープンソースなLarge Language Models (LLMs)として導入された。我々は,Moxin-VLM,Moxin-VLA,Moxin- Chineseの3つの変種を開発した。実験により, 各種評価において, モデルが優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-12-22T02:36:42Z)
Empowering Multimodal LLMs with External Tools: A Comprehensive Survey [61.66069828956139]
MLLM(Multimodal Large Language Models)は、人工知能への有望な経路を指して、様々なマルチモーダルタスクにおいて大きな成功を収めた。マルチモーダルデータの欠如、複雑な下流タスクの性能の低下、不適切な評価プロトコルがMLLMの信頼性とより広範な適用性を妨げている。推論と問題解決の強化に外部ツールを活用する人間の能力にインスパイアされたMLLMを外部ツールで強化することは、これらの課題を克服するための有望な戦略を提供する。
論文参考訳（メタデータ） (2025-08-14T07:25:45Z)
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [64.62421656031128]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。 MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文参考訳（メタデータ） (2025-04-13T19:35:43Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文参考訳（メタデータ） (2024-08-23T01:37:29Z)
A Large-Scale Study of Model Integration in ML-Enabled Software Systems [4.776073133338119]
機械学習(ML)とそのシステムへの組み込みは、ソフトウェア集約システムのエンジニアリングを大きく変えた。伝統的に、ソフトウェアエンジニアリングは、ソースコードやそれらを作成するプロセスなど、手作業で作成したアーティファクトに焦点を当てている。我々は、GitHub上で2,928以上のオープンソースシステムをカバーする、実際のML対応ソフトウェアシステムに関する最初の大規模な研究を提示する。
論文参考訳（メタデータ） (2024-08-12T15:28:40Z)
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。 MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文参考訳（メタデータ） (2024-07-11T15:08:11Z)
DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。 DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文参考訳（メタデータ） (2024-02-16T00:10:26Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
EDALearn: A Comprehensive RTL-to-Signoff EDA Benchmark for Democratized and Reproducible ML for EDA Research [5.093676641214663]
我々はEDALearnを紹介した。EDALearnは、EDAの機械学習タスクに特化した、最初の包括的なオープンソースベンチマークスイートである。このベンチマークスイートは、合成から物理実装までのエンドツーエンドのフローを示し、さまざまなステージにわたるデータ収集を強化する。私たちの貢献はML-EDAドメインのさらなる進歩を促進することを目的としています。
論文参考訳（メタデータ） (2023-12-04T06:51:46Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)
CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。 CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文参考訳（メタデータ） (2023-05-31T05:24:48Z)
Machine Learning for Software Engineering: A Tertiary Study [13.832268599253412]
機械学習(ML)技術は、ソフトウェアエンジニアリング(SE)ライフサイクルアクティビティの有効性を高める。 2009～2022年に発行されたML for SEで, 体系的, 品質評価, 要約, 分類を行い, 初等研究6,117件について検討した。 MLに最も取り組まれているSE領域は、ソフトウェアの品質とテストである。
論文参考訳（メタデータ） (2022-11-17T09:19:53Z)
Machine Learning Operations (MLOps): Overview, Definition, and Architecture [0.0]
機械学習オペレーション(MLOps)のパラダイムは、この問題に対処する。 MLOpsはいまだ曖昧な用語であり、研究者や専門家にとっての結果は曖昧である。必要なコンポーネントや役割、関連するアーキテクチャや原則をまとめて紹介します。
論文参考訳（メタデータ） (2022-05-04T19:38:48Z)
Widening Access to Applied Machine Learning with TinyML [1.1678513163359947]
我々は,Tiny Machine Learning (TinyML)上で,大規模なオープンオンラインコース (MOOC) を通じて応用機械学習 (ML) へのアクセスを増やすための教育的アプローチについて述べる。この目的のために、学界(ハーバード大学)と産業(Google)の協力により、TinyMLを使ってソリューションを開発するためのアプリケーション指向の指導を提供する4つのMOOCが作成された。このシリーズは、edX MOOCプラットフォームで公開されており、基本的なプログラミング以上の前提条件がなく、世界中のさまざまなバックグラウンドから学習者向けに設計されている。
論文参考訳（メタデータ） (2021-06-07T23:31:47Z)
Empirical Study on the Software Engineering Practices in Open Source ML Package Repositories [6.2894222252929985]
現代の機械学習技術は、そのようなモデルを開発し、訓練し、デプロイするために、かなりの技術的専門知識とリソースを必要とする。実践者や研究者によるこのような発見と再利用は、パブリックMLパッケージリポジトリによって対処されている。本稿では,2つの人気MLパッケージリポジトリの構造と内容を分析する探索的研究を行う。
論文参考訳（メタデータ） (2020-12-02T18:52:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。