Fugu-MT 論文翻訳(概要): Data Readiness Report

論文の概要: Data Readiness Report

arxiv url: http://arxiv.org/abs/2010.07213v2
Date: Thu, 15 Oct 2020 13:30:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 14:04:55.093664
Title: Data Readiness Report
Title（参考訳）: データ準備状況報告
Authors: Shazia Afzal, Rajmohan C, Manish Kesarwani, Sameep Mehta, Hima Patel
Abstract要約: データセットに付随するドキュメントとして、データ準備レポートの概念を紹介します。様々な品質の次元に関するデータの特徴と課題を識別し、文書化する。これは、データガバナンスと管理の目的のために、詳細な系統を提供する。
参考スコア（独自算出の注目度）: 7.095487241221448
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data exploration and quality analysis is an important yet tedious process in the AI pipeline. Current practices of data cleaning and data readiness assessment for machine learning tasks are mostly conducted in an arbitrary manner which limits their reuse and results in loss of productivity. We introduce the concept of a Data Readiness Report as an accompanying documentation to a dataset that allows data consumers to get detailed insights into the quality of input data. Data characteristics and challenges on various quality dimensions are identified and documented keeping in mind the principles of transparency and explainability. The Data Readiness Report also serves as a record of all data assessment operations including applied transformations. This provides a detailed lineage for the purpose of data governance and management. In effect, the report captures and documents the actions taken by various personas in a data readiness and assessment workflow. Overtime this becomes a repository of best practices and can potentially drive a recommendation system for building automated data readiness workflows on the lines of AutoML [8]. We anticipate that together with the Datasheets [9], Dataset Nutrition Label [11], FactSheets [1] and Model Cards [15], the Data Readiness Report makes significant progress towards Data and AI lifecycle documentation.
Abstract（参考訳）: データ探索と品質分析は、AIパイプラインにおいて重要だが面倒なプロセスである。機械学習タスクにおけるデータクリーニングとデータ準備性評価の現在の実践は、主に任意の方法で行われ、再利用が制限され生産性が低下する。本稿では,データ利用者が入力データの品質に関する詳細な洞察を得ることのできるデータセットのドキュメントとして,データ準備レポートの概念を紹介する。さまざまな品質次元に関するデータ特性と課題を識別し、透明性と説明可能性の原則を念頭に置いて文書化します。 Data Readiness Reportは、適用された変換を含むすべてのデータアセスメント操作の記録としても機能する。これは、データのガバナンスと管理のために詳細な系統を提供する。レポートは、データ準備および評価ワークフローにおいて、さまざまなペルソナがとったアクションをキャプチャし、文書化する。これはベストプラクティスのリポジトリとなり、AutoML [8]のラインで自動データ準備ワークフローを構築するためのレコメンデーションシステムを駆動する可能性がある。データシート [9]、データセット栄養ラベル [11]、ファクトシート [1]、モデルカード [15] と共に、データ準備レポートはデータとaiライフサイクルのドキュメントに向けて大きな進歩を遂げることを期待している。

関連論文リスト

Data Science and Technology Towards AGI Part I: Tiered Data Management [53.64581824953229]
我々は、人工知能の開発がデータモデル共進化の新しい段階に入ったと論じる。我々は、未処理のリソースから組織的で検証可能な知識まで、L0-L4階層のデータ管理フレームワークを紹介します。提案手法の有効性を実証研究により検証する。
論文参考訳（メタデータ） (2026-02-09T18:47:51Z)
Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文参考訳（メタデータ） (2026-01-22T12:02:45Z)
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability [41.23032741638842]
本稿では,データセットレビュープロセスに,体系的な記述型評価指標を組み込むことを提唱する。我々は、人間とモデル生成データセットの品質を評価するための構造化フレームワークであるDataRubricsを紹介する。
論文参考訳（メタデータ） (2025-06-02T15:31:52Z)
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。 Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文参考訳（メタデータ） (2024-10-07T17:59:58Z)
Data Proportion Detection for Optimized Data Management for Large Language Models [32.62631669919273]
我々は,事前学習データの割合の自動推定を可能にする新しいトピック,textitdata proportion Detectionを導入する。データ比例検出のための厳密な理論的証明、実用的なアルゴリズム、予備実験結果を提供する。
論文参考訳（メタデータ） (2024-09-26T04:30:32Z)
InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文参考訳（メタデータ） (2024-07-08T22:06:09Z)
Machine Learning Data Practices through a Data Curation Lens: An Evaluation Framework [1.5993707490601146]
機械学習におけるデータプラクティスをデータキュレーションの実践として評価する。機械学習の研究者たちは、しばしばモデル開発を強調するが、標準的なデータキュレーションの原則を適用するのに苦労している。
論文参考訳（メタデータ） (2024-05-04T16:21:05Z)
Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2023-11-22T22:15:17Z)
Collect, Measure, Repeat: Reliability Factors for Responsible AI Data Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文参考訳（メタデータ） (2023-08-22T18:01:27Z)
Analyzing Dataset Annotation Quality Management in the Wild [63.07224587146207]
最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
論文参考訳（メタデータ） (2023-07-16T21:22:40Z)
STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-05-24T12:15:19Z)
DMOps: Data Management Operation and Recipes [2.28438857884398]
データ中心のAIは、機械学習(ML)パイプライン内のデータの重要性に光を当てている。我々は,NLP製品のデータセット構築を最適化する上で,業界を導く「データ管理運用とレシピ」を提案する。
論文参考訳（メタデータ） (2023-01-02T09:46:53Z)
Data Cards: Purposeful and Transparent Dataset Documentation for Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文参考訳（メタデータ） (2022-04-03T13:49:36Z)
Investigating Data Variance in Evaluations of Automatic Machine Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文参考訳（メタデータ） (2022-03-29T18:58:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。