論文の概要: Data Readiness Report
- arxiv url: http://arxiv.org/abs/2010.07213v2
- Date: Thu, 15 Oct 2020 13:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 14:04:55.093664
- Title: Data Readiness Report
- Title(参考訳): データ準備状況報告
- Authors: Shazia Afzal, Rajmohan C, Manish Kesarwani, Sameep Mehta, Hima Patel
- Abstract要約: データセットに付随するドキュメントとして、データ準備レポートの概念を紹介します。
様々な品質の次元に関するデータの特徴と課題を識別し、文書化する。
これは、データガバナンスと管理の目的のために、詳細な系統を提供する。
- 参考スコア(独自算出の注目度): 7.095487241221448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data exploration and quality analysis is an important yet tedious process in
the AI pipeline. Current practices of data cleaning and data readiness
assessment for machine learning tasks are mostly conducted in an arbitrary
manner which limits their reuse and results in loss of productivity. We
introduce the concept of a Data Readiness Report as an accompanying
documentation to a dataset that allows data consumers to get detailed insights
into the quality of input data. Data characteristics and challenges on various
quality dimensions are identified and documented keeping in mind the principles
of transparency and explainability. The Data Readiness Report also serves as a
record of all data assessment operations including applied transformations.
This provides a detailed lineage for the purpose of data governance and
management. In effect, the report captures and documents the actions taken by
various personas in a data readiness and assessment workflow. Overtime this
becomes a repository of best practices and can potentially drive a
recommendation system for building automated data readiness workflows on the
lines of AutoML [8]. We anticipate that together with the Datasheets [9],
Dataset Nutrition Label [11], FactSheets [1] and Model Cards [15], the Data
Readiness Report makes significant progress towards Data and AI lifecycle
documentation.
- Abstract(参考訳): データ探索と品質分析は、AIパイプラインにおいて重要だが面倒なプロセスである。
機械学習タスクにおけるデータクリーニングとデータ準備性評価の現在の実践は、主に任意の方法で行われ、再利用が制限され生産性が低下する。
本稿では,データ利用者が入力データの品質に関する詳細な洞察を得ることのできるデータセットのドキュメントとして,データ準備レポートの概念を紹介する。
さまざまな品質次元に関するデータ特性と課題を識別し、透明性と説明可能性の原則を念頭に置いて文書化します。
Data Readiness Reportは、適用された変換を含むすべてのデータアセスメント操作の記録としても機能する。
これは、データのガバナンスと管理のために詳細な系統を提供する。
レポートは、データ準備および評価ワークフローにおいて、さまざまなペルソナがとったアクションをキャプチャし、文書化する。
これはベストプラクティスのリポジトリとなり、AutoML [8]のラインで自動データ準備ワークフローを構築するためのレコメンデーションシステムを駆動する可能性がある。
データシート [9]、データセット栄養ラベル [11]、ファクトシート [1]、モデルカード [15] と共に、データ準備レポートはデータとaiライフサイクルのドキュメントに向けて大きな進歩を遂げることを期待している。
関連論文リスト
- Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - Data Proportion Detection for Optimized Data Management for Large Language Models [32.62631669919273]
我々は,事前学習データの割合の自動推定を可能にする新しいトピック,textitdata proportion Detectionを導入する。
データ比例検出のための厳密な理論的証明、実用的なアルゴリズム、予備実験結果を提供する。
論文 参考訳(メタデータ) (2024-09-26T04:30:32Z) - InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。
単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文 参考訳(メタデータ) (2024-07-08T22:06:09Z) - Machine Learning Data Practices through a Data Curation Lens: An Evaluation Framework [1.5993707490601146]
機械学習におけるデータプラクティスをデータキュレーションの実践として評価する。
機械学習の研究者たちは、しばしばモデル開発を強調するが、標準的なデータキュレーションの原則を適用するのに苦労している。
論文 参考訳(メタデータ) (2024-05-04T16:21:05Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - Analyzing Dataset Annotation Quality Management in the Wild [63.07224587146207]
最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
論文 参考訳(メタデータ) (2023-07-16T21:22:40Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - DMOps: Data Management Operation and Recipes [2.28438857884398]
データ中心のAIは、機械学習(ML)パイプライン内のデータの重要性に光を当てている。
我々は,NLP製品のデータセット構築を最適化する上で,業界を導く「データ管理運用とレシピ」を提案する。
論文 参考訳(メタデータ) (2023-01-02T09:46:53Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。