論文の概要: Dataset Management Platform for Machine Learning
- arxiv url: http://arxiv.org/abs/2303.08301v1
- Date: Wed, 15 Mar 2023 01:26:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 18:24:57.702479
- Title: Dataset Management Platform for Machine Learning
- Title(参考訳): 機械学習のためのデータセット管理プラットフォーム
- Authors: Ze Mao, Yang Xu, Erick Suarez
- Abstract要約: データクリーンアップ、バージョニング、アクセス制御、データセット変換、自動化、完全性、セキュリティなどのタスクを含むデータセット管理は、機械学習プロセスの効率とスピードを改善するのに役立つ。
エンジニアは、データセットのバージョンの管理や機械学習タスクのためのデータセットの準備に、かなりの労力と時間を費やしている。
この開示では、データセットを効果的に管理および使用するためのプラットフォームが説明されている。
- 参考スコア(独自算出の注目度): 2.780833557952023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quality of the data in a dataset can have a substantial impact on the
performance of a machine learning model that is trained and/or evaluated using
the dataset. Effective dataset management, including tasks such as data
cleanup, versioning, access control, dataset transformation, automation,
integrity and security, etc., can help improve the efficiency and speed of the
machine learning process. Currently, engineers spend a substantial amount of
manual effort and time to manage dataset versions or to prepare datasets for
machine learning tasks. This disclosure describes a platform to manage and use
datasets effectively. The techniques integrate dataset management and dataset
transformation mechanisms. A storage engine is described that acts as a source
of truth for all data and handles versioning, access control etc. The dataset
transformation mechanism is a key part to generate a dataset (snapshot) to
serve different purposes. The described techniques can support different
workflows, pipelines, or data orchestration needs, e.g., for training and/or
evaluation of machine learning models.
- Abstract(参考訳): データセット内のデータの品質は、データセットを使ってトレーニングおよび/または評価される機械学習モデルのパフォーマンスに大きな影響を与える可能性がある。
データクリーンアップ、バージョニング、アクセス制御、データセット変換、自動化、完全性、セキュリティなどのタスクを含む効果的なデータセット管理は、機械学習プロセスの効率とスピードを改善するのに役立つ。
現在、エンジニアはデータセットのバージョンの管理や機械学習タスクのためのデータセットの準備にかなりの労力と時間を費やしている。
この開示では、データセットを効果的に管理および使用するためのプラットフォームについて説明する。
この技術はデータセット管理とデータセット変換機構を統合する。
ストレージエンジンはすべてのデータに対して真理の源として機能し、バージョニングやアクセス制御などの処理を行う。
データセット変換メカニズムは、異なる目的のためにデータセット(スナップショット)を生成するための重要な部分である。
前述のテクニックは、トレーニングや機械学習モデルの評価など、さまざまなワークフロー、パイプライン、あるいはデータオーケストレーションのニーズをサポートすることができる。
関連論文リスト
- DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback [62.235925602004535]
データ生成エージェントのための教師環境のテストベッドであるDataEnvGymを紹介する。
DataEnvGymはシーケンシャルな意思決定タスクとしてデータ生成をフレーム化する。
エージェントの目標は、生徒のパフォーマンスを改善することです。
我々は3つの多様なタスク(数学、コード、VQA)をサポートし、複数の学生と教師をテストする。
論文 参考訳(メタデータ) (2024-10-08T17:20:37Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - Imitation Learning Datasets: A Toolkit For Creating Datasets, Training
Agents and Benchmarking [0.9944647907864256]
模倣学習分野は、タスク内のエージェントを訓練するために専門家データを必要とする。
多くの場合、この学習アプローチは利用可能なデータの欠如に悩まされる。
この作業は、Imitation Learningデータセットを作成することで、これらの問題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-03-01T14:18:46Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Dataset Factory: A Toolchain For Generative Computer Vision Datasets [0.9013233848500058]
メタデータからサンプルの保存と処理を分離する「データセットファクトリ」を提案する。
これにより、機械学習チームや個々の研究者に対して、大規模にデータ中心の操作が可能になる。
論文 参考訳(メタデータ) (2023-09-20T19:43:37Z) - DataAssist: A Machine Learning Approach to Data Cleaning and Preparation [0.0]
DataAssistは、MLインフォームドメソッドを使用してデータセットの品質を向上させる自動データ準備およびクリーニングプラットフォームである。
我々のツールは、経済、ビジネス、予測アプリケーションなど、さまざまな分野に適用でき、データの浄化と準備に費やした時間の50%以上を節約できる。
論文 参考訳(メタデータ) (2023-07-14T01:50:53Z) - Information Flow Control in Machine Learning through Modular Model Architecture [28.738597481003335]
今日の機械学習(ML)モデルでは、トレーニングデータの任意の部分がモデル出力に影響を与える可能性がある。
トレーニングデータからモデル出力への情報フローの制御の欠如は、センシティブなデータに対するトレーニングモデルの大きな障害である。
本稿では,機械学習のための情報フロー制御の概念を提案し,トランスフォーマー言語モデルアーキテクチャの拡張を開発する。
論文 参考訳(メタデータ) (2023-06-05T20:40:05Z) - Privacy-Preserving Machine Learning for Collaborative Data Sharing via
Auto-encoder Latent Space Embeddings [57.45332961252628]
データ共有プロセスにおけるプライバシ保護機械学習は、極めて重要なタスクである。
本稿では、オートエンコーダによる表現学習を用いて、プライバシーを保護した組込みデータを生成する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-10T17:36:58Z) - A Data-Based Perspective on Transfer Learning [76.30206800557411]
転送学習におけるソースデータセットの合成の役割について,より詳しく検討する。
我々のフレームワークは、転送学習の脆さをピンポインティングするなど、新しい機能を生み出します。
論文 参考訳(メタデータ) (2022-07-12T17:58:28Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Data Quality Toolkit: Automatic assessment of data quality and
remediation for machine learning datasets [11.417891017429882]
Data Quality Toolkit for Machine Learningは、いくつかの重要な品質指標と関連する修復テクニックのライブラリである。
データ準備パイプラインのターンアラウンド時間を短縮し、データ品質評価プロセスを合理化する。
論文 参考訳(メタデータ) (2021-08-12T19:22:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。