論文の概要: Data Engineering for Everyone
- arxiv url: http://arxiv.org/abs/2102.11447v1
- Date: Tue, 23 Feb 2021 01:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 13:55:54.125990
- Title: Data Engineering for Everyone
- Title(参考訳): 全員のためのデータエンジニアリング
- Authors: Vijay Janapa Reddi, Greg Diamos, Pete Warden, Peter Mattson, David
Kanter
- Abstract要約: データエンジニアリングは機械学習(ML)における最速成長分野の1つである
MLは、データエンジニアの個々のチームが簡単に生成できる以上のデータを必要とします。
この記事では、大規模なAI組織でも、オープンソースのデータセットが研究とイノベーションのためのロケット燃料であることを示す。
- 参考スコア(独自算出の注目度): 1.2585165426919136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data engineering is one of the fastest-growing fields within machine learning
(ML). As ML becomes more common, the appetite for data grows more ravenous. But
ML requires more data than individual teams of data engineers can readily
produce, which presents a severe challenge to ML deployment at scale. Much like
the software-engineering revolution, where mass adoption of open-source
software replaced the closed, in-house development model for infrastructure
code, there is a growing need to enable rapid development and open contribution
to massive machine learning data sets. This article shows that open-source data
sets are the rocket fuel for research and innovation at even some of the
largest AI organizations. Our analysis of nearly 2000 research publications
from Facebook, Google and Microsoft over the past five years shows the
widespread use and adoption of open data sets. Open data sets that are easily
accessible to the public are vital to accelerating ML innovation for everyone.
But such open resources are scarce in the wild. So, what if we are able to
accelerate data-set creation via automatic data set generation tools?
- Abstract(参考訳): データエンジニアリングは、機械学習(ML)の中で急速に成長している分野の一つです。
MLがより一般的になるにつれて、データの食欲はより高くなる。
しかし、MLは、データエンジニアの個々のチームが簡単に作成できるよりも多くのデータを必要とします。
オープンソースソフトウェアがインフラストラクチャコードのクローズドな社内開発モデルに置き換えられたソフトウェアエンジニアリング革命のように、大規模機械学習データセットへの迅速な開発とオープンな貢献を可能にする必要性が高まっている。
この記事では、大規模なAI組織でも、オープンソースのデータセットが研究とイノベーションのためのロケット燃料であることを示す。
過去5年間にFacebook、Google、Microsoftから2000近い研究論文を分析したところ、オープンデータセットの普及と普及が示されています。
誰もが容易にアクセスできるオープンデータセットは、MLのイノベーションを加速するために不可欠だ。
しかし、そのようなオープンな資源は野生では乏しい。
では、データセットの自動生成ツールでデータセット作成を加速できたらどうでしょう?
関連論文リスト
- OpenDataLab: Empowering General Artificial Intelligence with Open Datasets [53.22840149601411]
本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。
OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。
我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-04T10:42:01Z) - A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI [0.0]
生成AIと大規模言語モデル(LLM)アプリケーションは、個人がデータや知識を見つけてアクセスする方法を変えつつある。
この白書は、オープンデータと生成AIの関係を解き放ち、新しい第4波のオープンデータの可能性を探究するものである。
論文 参考訳(メタデータ) (2024-05-07T14:01:33Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z) - Open Environment Machine Learning [84.90891046882213]
従来の機械学習研究は、学習プロセスの重要な要素が不変であるような近世界のシナリオを想定している。
本稿では,新しいクラスを創出する技術,デクリメンタル/インクリメンタルな特徴,データ分散の変化,学習目標の変化,理論的諸問題について概説する。
論文 参考訳(メタデータ) (2022-06-01T11:57:56Z) - What can Data-Centric AI Learn from Data and ML Engineering? [17.247372757533185]
データ中心のAIは、AIコミュニティで新しくてエキサイティングな研究トピックです。
すでに多くの組織が、さまざまな“データ中心”アプリケーションを構築し、メンテナンスしている。
我々は、データ中心のAIに適用することに興味のあるデータとMLエンジニアリングからいくつかの教訓について論じる。
論文 参考訳(メタデータ) (2021-12-13T06:40:05Z) - Data Collection and Quality Challenges in Deep Learning: A Data-Centric
AI Perspective [16.480530590466472]
データ中心のAIプラクティスが主流になりつつある。
現実世界の多くのデータセットは小さく、汚く、偏りがあり、毒まみれである。
データ品質については、データ検証とデータクリーニング技術について研究する。
論文 参考訳(メタデータ) (2021-12-13T03:57:36Z) - Widening Access to Applied Machine Learning with TinyML [1.1678513163359947]
我々は,Tiny Machine Learning (TinyML)上で,大規模なオープンオンラインコース (MOOC) を通じて応用機械学習 (ML) へのアクセスを増やすための教育的アプローチについて述べる。
この目的のために、学界(ハーバード大学)と産業(Google)の協力により、TinyMLを使ってソリューションを開発するためのアプリケーション指向の指導を提供する4つのMOOCが作成された。
このシリーズは、edX MOOCプラットフォームで公開されており、基本的なプログラミング以上の前提条件がなく、世界中のさまざまなバックグラウンドから学習者向けに設計されている。
論文 参考訳(メタデータ) (2021-06-07T23:31:47Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。