Fugu-MT 論文翻訳(概要): Dataset Management Platform for Machine Learning

論文の概要: Dataset Management Platform for Machine Learning

arxiv url: http://arxiv.org/abs/2303.08301v1
Date: Wed, 15 Mar 2023 01:26:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-16 18:24:57.702479
Title: Dataset Management Platform for Machine Learning
Title（参考訳）: 機械学習のためのデータセット管理プラットフォーム
Authors: Ze Mao, Yang Xu, Erick Suarez
Abstract要約: データクリーンアップ、バージョニング、アクセス制御、データセット変換、自動化、完全性、セキュリティなどのタスクを含むデータセット管理は、機械学習プロセスの効率とスピードを改善するのに役立つ。エンジニアは、データセットのバージョンの管理や機械学習タスクのためのデータセットの準備に、かなりの労力と時間を費やしている。この開示では、データセットを効果的に管理および使用するためのプラットフォームが説明されている。
参考スコア（独自算出の注目度）: 2.780833557952023
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The quality of the data in a dataset can have a substantial impact on the performance of a machine learning model that is trained and/or evaluated using the dataset. Effective dataset management, including tasks such as data cleanup, versioning, access control, dataset transformation, automation, integrity and security, etc., can help improve the efficiency and speed of the machine learning process. Currently, engineers spend a substantial amount of manual effort and time to manage dataset versions or to prepare datasets for machine learning tasks. This disclosure describes a platform to manage and use datasets effectively. The techniques integrate dataset management and dataset transformation mechanisms. A storage engine is described that acts as a source of truth for all data and handles versioning, access control etc. The dataset transformation mechanism is a key part to generate a dataset (snapshot) to serve different purposes. The described techniques can support different workflows, pipelines, or data orchestration needs, e.g., for training and/or evaluation of machine learning models.
Abstract（参考訳）: データセット内のデータの品質は、データセットを使ってトレーニングおよび/または評価される機械学習モデルのパフォーマンスに大きな影響を与える可能性がある。データクリーンアップ、バージョニング、アクセス制御、データセット変換、自動化、完全性、セキュリティなどのタスクを含む効果的なデータセット管理は、機械学習プロセスの効率とスピードを改善するのに役立つ。現在、エンジニアはデータセットのバージョンの管理や機械学習タスクのためのデータセットの準備にかなりの労力と時間を費やしている。この開示では、データセットを効果的に管理および使用するためのプラットフォームについて説明する。この技術はデータセット管理とデータセット変換機構を統合する。ストレージエンジンはすべてのデータに対して真理の源として機能し、バージョニングやアクセス制御などの処理を行う。データセット変換メカニズムは、異なる目的のためにデータセット(スナップショット)を生成するための重要な部分である。前述のテクニックは、トレーニングや機械学習モデルの評価など、さまざまなワークフロー、パイプライン、あるいはデータオーケストレーションのニーズをサポートすることができる。

関連論文リスト

Data Science and Technology Towards AGI Part I: Tiered Data Management [53.64581824953229]
我々は、人工知能の開発がデータモデル共進化の新しい段階に入ったと論じる。我々は、未処理のリソースから組織的で検証可能な知識まで、L0-L4階層のデータ管理フレームワークを紹介します。提案手法の有効性を実証研究により検証する。
論文参考訳（メタデータ） (2026-02-09T18:47:51Z)
Autonomous Data Agents: A New Opportunity for Smart Data [50.02229219403014]
DataAgentsは、自律的なデータから知識システムへのパラダイムシフトを表している、とReportは主張する。 DataAgentsは、複雑で非構造化されたデータをコヒーレントで行動可能な知識に変換する。エージェントAIとデータ・トゥ・ナレッジシステムの収束が重要なトレンドとなっている理由を最初に検討する。
論文参考訳（メタデータ） (2025-09-23T06:46:41Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback [62.235925602004535]
データ生成エージェントのための教師環境のテストベッドであるDataEnvGymを紹介する。 DataEnvGymはシーケンシャルな意思決定タスクとしてデータ生成をフレーム化する。エージェントの目標は、生徒のパフォーマンスを改善することです。我々は3つの多様なタスク(数学、コード、VQA)をサポートし、複数の学生と教師をテストする。
論文参考訳（メタデータ） (2024-10-08T17:20:37Z)
Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文参考訳（メタデータ） (2024-04-22T17:15:32Z)
Imitation Learning Datasets: A Toolkit For Creating Datasets, Training Agents and Benchmarking [0.9944647907864256]
模倣学習分野は、タスク内のエージェントを訓練するために専門家データを必要とする。多くの場合、この学習アプローチは利用可能なデータの欠如に悩まされる。この作業は、Imitation Learningデータセットを作成することで、これらの問題に対処することを目的としている。
論文参考訳（メタデータ） (2024-03-01T14:18:46Z)
An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。提案されたフレームワークは使いやすく、柔軟です。
論文参考訳（メタデータ） (2024-02-26T07:22:51Z)
Dataset Factory: A Toolchain For Generative Computer Vision Datasets [0.9013233848500058]
メタデータからサンプルの保存と処理を分離する「データセットファクトリ」を提案する。これにより、機械学習チームや個々の研究者に対して、大規模にデータ中心の操作が可能になる。
論文参考訳（メタデータ） (2023-09-20T19:43:37Z)
DataAssist: A Machine Learning Approach to Data Cleaning and Preparation [0.0]
DataAssistは、MLインフォームドメソッドを使用してデータセットの品質を向上させる自動データ準備およびクリーニングプラットフォームである。我々のツールは、経済、ビジネス、予測アプリケーションなど、さまざまな分野に適用でき、データの浄化と準備に費やした時間の50%以上を節約できる。
論文参考訳（メタデータ） (2023-07-14T01:50:53Z)
Information Flow Control in Machine Learning through Modular Model Architecture [28.738597481003335]
今日の機械学習(ML)モデルでは、トレーニングデータの任意の部分がモデル出力に影響を与える可能性がある。トレーニングデータからモデル出力への情報フローの制御の欠如は、センシティブなデータに対するトレーニングモデルの大きな障害である。本稿では,機械学習のための情報フロー制御の概念を提案し,トランスフォーマー言語モデルアーキテクチャの拡張を開発する。
論文参考訳（メタデータ） (2023-06-05T20:40:05Z)
Privacy-Preserving Machine Learning for Collaborative Data Sharing via Auto-encoder Latent Space Embeddings [57.45332961252628]
データ共有プロセスにおけるプライバシ保護機械学習は、極めて重要なタスクである。本稿では、オートエンコーダによる表現学習を用いて、プライバシーを保護した組込みデータを生成する革新的なフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-10T17:36:58Z)
A Data-Based Perspective on Transfer Learning [76.30206800557411]
転送学習におけるソースデータセットの合成の役割について,より詳しく検討する。我々のフレームワークは、転送学習の脆さをピンポインティングするなど、新しい機能を生み出します。
論文参考訳（メタデータ） (2022-07-12T17:58:28Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Data Quality Toolkit: Automatic assessment of data quality and remediation for machine learning datasets [11.417891017429882]
Data Quality Toolkit for Machine Learningは、いくつかの重要な品質指標と関連する修復テクニックのライブラリである。データ準備パイプラインのターンアラウンド時間を短縮し、データ品質評価プロセスを合理化する。
論文参考訳（メタデータ） (2021-08-12T19:22:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。