論文の概要: Data Readiness Report
- arxiv url: http://arxiv.org/abs/2010.07213v2
- Date: Thu, 15 Oct 2020 13:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 14:04:55.093664
- Title: Data Readiness Report
- Title(参考訳): データ準備状況報告
- Authors: Shazia Afzal, Rajmohan C, Manish Kesarwani, Sameep Mehta, Hima Patel
- Abstract要約: データセットに付随するドキュメントとして、データ準備レポートの概念を紹介します。
様々な品質の次元に関するデータの特徴と課題を識別し、文書化する。
これは、データガバナンスと管理の目的のために、詳細な系統を提供する。
- 参考スコア(独自算出の注目度): 7.095487241221448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data exploration and quality analysis is an important yet tedious process in
the AI pipeline. Current practices of data cleaning and data readiness
assessment for machine learning tasks are mostly conducted in an arbitrary
manner which limits their reuse and results in loss of productivity. We
introduce the concept of a Data Readiness Report as an accompanying
documentation to a dataset that allows data consumers to get detailed insights
into the quality of input data. Data characteristics and challenges on various
quality dimensions are identified and documented keeping in mind the principles
of transparency and explainability. The Data Readiness Report also serves as a
record of all data assessment operations including applied transformations.
This provides a detailed lineage for the purpose of data governance and
management. In effect, the report captures and documents the actions taken by
various personas in a data readiness and assessment workflow. Overtime this
becomes a repository of best practices and can potentially drive a
recommendation system for building automated data readiness workflows on the
lines of AutoML [8]. We anticipate that together with the Datasheets [9],
Dataset Nutrition Label [11], FactSheets [1] and Model Cards [15], the Data
Readiness Report makes significant progress towards Data and AI lifecycle
documentation.
- Abstract(参考訳): データ探索と品質分析は、AIパイプラインにおいて重要だが面倒なプロセスである。
機械学習タスクにおけるデータクリーニングとデータ準備性評価の現在の実践は、主に任意の方法で行われ、再利用が制限され生産性が低下する。
本稿では,データ利用者が入力データの品質に関する詳細な洞察を得ることのできるデータセットのドキュメントとして,データ準備レポートの概念を紹介する。
さまざまな品質次元に関するデータ特性と課題を識別し、透明性と説明可能性の原則を念頭に置いて文書化します。
Data Readiness Reportは、適用された変換を含むすべてのデータアセスメント操作の記録としても機能する。
これは、データのガバナンスと管理のために詳細な系統を提供する。
レポートは、データ準備および評価ワークフローにおいて、さまざまなペルソナがとったアクションをキャプチャし、文書化する。
これはベストプラクティスのリポジトリとなり、AutoML [8]のラインで自動データ準備ワークフローを構築するためのレコメンデーションシステムを駆動する可能性がある。
データシート [9]、データセット栄養ラベル [11]、ファクトシート [1]、モデルカード [15] と共に、データ準備レポートはデータとaiライフサイクルのドキュメントに向けて大きな進歩を遂げることを期待している。
関連論文リスト
- An Integrated Data Processing Framework for Pretraining Foundation
Models [61.66552412677197]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Data Management For Large Language Models: A Survey [66.59562797566163]
大規模言語モデル(LLM)の訓練におけるデータの役割
本調査は,LLMの事前学習および教師付き微調整段階におけるデータ管理の現状を概観する。
論文 参考訳(メタデータ) (2023-12-04T07:42:16Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - Analyzing Dataset Annotation Quality Management in the Wild [63.07224587146207]
最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
論文 参考訳(メタデータ) (2023-07-16T21:22:40Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - DMOps: Data Management Operation and Recipes [2.28438857884398]
データ中心のAIは、機械学習(ML)パイプライン内のデータの重要性に光を当てている。
我々は,NLP製品のデータセット構築を最適化する上で,業界を導く「データ管理運用とレシピ」を提案する。
論文 参考訳(メタデータ) (2023-01-02T09:46:53Z) - Understanding Machine Learning Practitioners' Data Documentation
Perceptions, Needs, Challenges, and Desiderata [10.689661834716613]
データは機械学習(ML)モデルの開発と評価の中心である。
責任あるAIの実践を促進するために、研究者と実践者はデータドキュメントの増加を提唱し始めた。
これらのデータドキュメンテーションフレームワークがML実践者のニーズを満たすかどうかについてはほとんど研究されていない。
論文 参考訳(メタデータ) (2022-06-06T21:55:39Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z) - Statistical Learning to Operationalize a Domain Agnostic Data Quality
Scoring [8.864453148536061]
この研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを収集する自動化プラットフォームを提供する。
この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。
論文 参考訳(メタデータ) (2021-08-16T12:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。