論文の概要: Dataset Management Platform for Machine Learning
- arxiv url: http://arxiv.org/abs/2303.08301v1
- Date: Wed, 15 Mar 2023 01:26:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 18:24:57.702479
- Title: Dataset Management Platform for Machine Learning
- Title(参考訳): 機械学習のためのデータセット管理プラットフォーム
- Authors: Ze Mao, Yang Xu, Erick Suarez
- Abstract要約: データクリーンアップ、バージョニング、アクセス制御、データセット変換、自動化、完全性、セキュリティなどのタスクを含むデータセット管理は、機械学習プロセスの効率とスピードを改善するのに役立つ。
エンジニアは、データセットのバージョンの管理や機械学習タスクのためのデータセットの準備に、かなりの労力と時間を費やしている。
この開示では、データセットを効果的に管理および使用するためのプラットフォームが説明されている。
- 参考スコア(独自算出の注目度): 2.780833557952023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quality of the data in a dataset can have a substantial impact on the
performance of a machine learning model that is trained and/or evaluated using
the dataset. Effective dataset management, including tasks such as data
cleanup, versioning, access control, dataset transformation, automation,
integrity and security, etc., can help improve the efficiency and speed of the
machine learning process. Currently, engineers spend a substantial amount of
manual effort and time to manage dataset versions or to prepare datasets for
machine learning tasks. This disclosure describes a platform to manage and use
datasets effectively. The techniques integrate dataset management and dataset
transformation mechanisms. A storage engine is described that acts as a source
of truth for all data and handles versioning, access control etc. The dataset
transformation mechanism is a key part to generate a dataset (snapshot) to
serve different purposes. The described techniques can support different
workflows, pipelines, or data orchestration needs, e.g., for training and/or
evaluation of machine learning models.
- Abstract(参考訳): データセット内のデータの品質は、データセットを使ってトレーニングおよび/または評価される機械学習モデルのパフォーマンスに大きな影響を与える可能性がある。
データクリーンアップ、バージョニング、アクセス制御、データセット変換、自動化、完全性、セキュリティなどのタスクを含む効果的なデータセット管理は、機械学習プロセスの効率とスピードを改善するのに役立つ。
現在、エンジニアはデータセットのバージョンの管理や機械学習タスクのためのデータセットの準備にかなりの労力と時間を費やしている。
この開示では、データセットを効果的に管理および使用するためのプラットフォームについて説明する。
この技術はデータセット管理とデータセット変換機構を統合する。
ストレージエンジンはすべてのデータに対して真理の源として機能し、バージョニングやアクセス制御などの処理を行う。
データセット変換メカニズムは、異なる目的のためにデータセット(スナップショット)を生成するための重要な部分である。
前述のテクニックは、トレーニングや機械学習モデルの評価など、さまざまなワークフロー、パイプライン、あるいはデータオーケストレーションのニーズをサポートすることができる。
関連論文リスト
- Imitation Learning Datasets: A Toolkit For Creating Datasets, Training
Agents and Benchmarking [0.9944647907864256]
模倣学習分野は、タスク内のエージェントを訓練するために専門家データを必要とする。
多くの場合、この学習アプローチは利用可能なデータの欠如に悩まされる。
この作業は、Imitation Learningデータセットを作成することで、これらの問題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-03-01T14:18:46Z) - An Integrated Data Processing Framework for Pretraining Foundation
Models [61.66552412677197]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Data Pipeline Training: Integrating AutoML to Optimize the Data Flow of
Machine Learning Models [17.091169031023714]
Data Pipelineは、マシンラーニングのモデリングやデータ製品の開発といったタスクにおいて、必須の役割を果たす。
本稿では,機械学習の自動化によるデータフローの最適化について検討する。
私たちは、AutoML技術を活用してData Pipelineのインテリジェンスを強化する方法について論じる。
論文 参考訳(メタデータ) (2024-02-20T11:06:42Z) - Dataset Factory: A Toolchain For Generative Computer Vision Datasets [0.9013233848500058]
メタデータからサンプルの保存と処理を分離する「データセットファクトリ」を提案する。
これにより、機械学習チームや個々の研究者に対して、大規模にデータ中心の操作が可能になる。
論文 参考訳(メタデータ) (2023-09-20T19:43:37Z) - DataAssist: A Machine Learning Approach to Data Cleaning and Preparation [0.0]
DataAssistは、MLインフォームドメソッドを使用してデータセットの品質を向上させる自動データ準備およびクリーニングプラットフォームである。
我々のツールは、経済、ビジネス、予測アプリケーションなど、さまざまな分野に適用でき、データの浄化と準備に費やした時間の50%以上を節約できる。
論文 参考訳(メタデータ) (2023-07-14T01:50:53Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Privacy-Preserving Machine Learning for Collaborative Data Sharing via
Auto-encoder Latent Space Embeddings [57.45332961252628]
データ共有プロセスにおけるプライバシ保護機械学習は、極めて重要なタスクである。
本稿では、オートエンコーダによる表現学習を用いて、プライバシーを保護した組込みデータを生成する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-10T17:36:58Z) - A Data-Based Perspective on Transfer Learning [76.30206800557411]
転送学習におけるソースデータセットの合成の役割について,より詳しく検討する。
我々のフレームワークは、転送学習の脆さをピンポインティングするなど、新しい機能を生み出します。
論文 参考訳(メタデータ) (2022-07-12T17:58:28Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Data Quality Toolkit: Automatic assessment of data quality and
remediation for machine learning datasets [11.417891017429882]
Data Quality Toolkit for Machine Learningは、いくつかの重要な品質指標と関連する修復テクニックのライブラリである。
データ準備パイプラインのターンアラウンド時間を短縮し、データ品質評価プロセスを合理化する。
論文 参考訳(メタデータ) (2021-08-12T19:22:27Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。