論文の概要: Dataset Management Platform for Machine Learning
- arxiv url: http://arxiv.org/abs/2303.08301v1
- Date: Wed, 15 Mar 2023 01:26:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 18:24:57.702479
- Title: Dataset Management Platform for Machine Learning
- Title(参考訳): 機械学習のためのデータセット管理プラットフォーム
- Authors: Ze Mao, Yang Xu, Erick Suarez
- Abstract要約: データクリーンアップ、バージョニング、アクセス制御、データセット変換、自動化、完全性、セキュリティなどのタスクを含むデータセット管理は、機械学習プロセスの効率とスピードを改善するのに役立つ。
エンジニアは、データセットのバージョンの管理や機械学習タスクのためのデータセットの準備に、かなりの労力と時間を費やしている。
この開示では、データセットを効果的に管理および使用するためのプラットフォームが説明されている。
- 参考スコア(独自算出の注目度): 2.780833557952023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quality of the data in a dataset can have a substantial impact on the
performance of a machine learning model that is trained and/or evaluated using
the dataset. Effective dataset management, including tasks such as data
cleanup, versioning, access control, dataset transformation, automation,
integrity and security, etc., can help improve the efficiency and speed of the
machine learning process. Currently, engineers spend a substantial amount of
manual effort and time to manage dataset versions or to prepare datasets for
machine learning tasks. This disclosure describes a platform to manage and use
datasets effectively. The techniques integrate dataset management and dataset
transformation mechanisms. A storage engine is described that acts as a source
of truth for all data and handles versioning, access control etc. The dataset
transformation mechanism is a key part to generate a dataset (snapshot) to
serve different purposes. The described techniques can support different
workflows, pipelines, or data orchestration needs, e.g., for training and/or
evaluation of machine learning models.
- Abstract(参考訳): データセット内のデータの品質は、データセットを使ってトレーニングおよび/または評価される機械学習モデルのパフォーマンスに大きな影響を与える可能性がある。
データクリーンアップ、バージョニング、アクセス制御、データセット変換、自動化、完全性、セキュリティなどのタスクを含む効果的なデータセット管理は、機械学習プロセスの効率とスピードを改善するのに役立つ。
現在、エンジニアはデータセットのバージョンの管理や機械学習タスクのためのデータセットの準備にかなりの労力と時間を費やしている。
この開示では、データセットを効果的に管理および使用するためのプラットフォームについて説明する。
この技術はデータセット管理とデータセット変換機構を統合する。
ストレージエンジンはすべてのデータに対して真理の源として機能し、バージョニングやアクセス制御などの処理を行う。
データセット変換メカニズムは、異なる目的のためにデータセット(スナップショット)を生成するための重要な部分である。
前述のテクニックは、トレーニングや機械学習モデルの評価など、さまざまなワークフロー、パイプライン、あるいはデータオーケストレーションのニーズをサポートすることができる。
関連論文リスト
- Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Privacy-Preserving Machine Learning for Collaborative Data Sharing via
Auto-encoder Latent Space Embeddings [57.45332961252628]
データ共有プロセスにおけるプライバシ保護機械学習は、極めて重要なタスクである。
本稿では、オートエンコーダによる表現学習を用いて、プライバシーを保護した組込みデータを生成する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-10T17:36:58Z) - A Data-Based Perspective on Transfer Learning [76.30206800557411]
転送学習におけるソースデータセットの合成の役割について,より詳しく検討する。
我々のフレームワークは、転送学習の脆さをピンポインティングするなど、新しい機能を生み出します。
論文 参考訳(メタデータ) (2022-07-12T17:58:28Z) - Quantifying and Extrapolating Data Needs in Radio Frequency Machine
Learning [0.0]
本研究では,電波周波数領域における変調分類問題について検討する。
望ましいレベルのパフォーマンスを達成するのに、どの程度のトレーニングデータが必要なのか、という疑問に答えようとしている。
転送学習で発達した転送電位のメトリクスを再取得することにより、境界データ量へのアプローチが発達する。
論文 参考訳(メタデータ) (2022-05-07T18:45:06Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Fix your Models by Fixing your Datasets [0.6058427379240697]
現在の機械学習ツールは、データ品質を改善するための合理化されたプロセスを欠いている。
そこで,本研究では,データセットにノイズや誤認のあるサンプルを見つけるための体系的枠組みを提案する。
2つのFortune 500企業のプライベートエンタープライズデータセットと同様に、当社のフレームワークの有効性を公開してみます。
論文 参考訳(メタデータ) (2021-12-15T02:41:50Z) - Parsing with Pretrained Language Models, Multiple Datasets, and Dataset
Embeddings [13.097523786733872]
変換器に基づく多言語依存にデータセットを埋め込む2つの手法を比較する。
ベースラインスコアが低い小さなデータセットやデータセットでは,パフォーマンスの向上が最も高いことを確認します。
すべてのデータセットの組み合わせによるトレーニングは、言語関連性に基づいてより小さなクラスタを設計するのと同様である。
論文 参考訳(メタデータ) (2021-12-07T10:47:07Z) - Data Quality Toolkit: Automatic assessment of data quality and
remediation for machine learning datasets [11.417891017429882]
Data Quality Toolkit for Machine Learningは、いくつかの重要な品質指標と関連する修復テクニックのライブラリである。
データ準備パイプラインのターンアラウンド時間を短縮し、データ品質評価プロセスを合理化する。
論文 参考訳(メタデータ) (2021-08-12T19:22:27Z) - Do Datasets Have Politics? Disciplinary Values in Computer Vision
Dataset Development [6.182409582844314]
約500のコンピュータビジョンデータセットのコーパスを収集し、そこから異なるビジョンタスクで114のデータセットパブリッシュをサンプリングしました。
我々は、コンピュータビジョンデータセットの著者が、ケアを犠牲にして効率をどのように評価するか、コンテキストを犠牲にして普遍性、データ作業を犠牲にしてモデルワークをいかに評価するかについて議論する。
私たちは、沈黙された値をデータセットの生成とキュレーションプロセスにどのように組み込むか、という提案で締めくくります。
論文 参考訳(メタデータ) (2021-08-09T19:07:58Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。