論文の概要: Statistical Learning to Operationalize a Domain Agnostic Data Quality
Scoring
- arxiv url: http://arxiv.org/abs/2108.08905v1
- Date: Mon, 16 Aug 2021 12:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-29 13:26:31.617209
- Title: Statistical Learning to Operationalize a Domain Agnostic Data Quality
Scoring
- Title(参考訳): ドメインに依存しないデータ品質検査の統計的学習
- Authors: Sezal Chug, Priya Kaushal, Ponnurangam Kumaraguru, Tavpritesh Sethi
- Abstract要約: この研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを収集する自動化プラットフォームを提供する。
この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。
- 参考スコア(独自算出の注目度): 8.864453148536061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is expanding at an unimaginable rate, and with this development comes
the responsibility of the quality of data. Data Quality refers to the relevance
of the information present and helps in various operations like decision making
and planning in a particular organization. Mostly data quality is measured on
an ad-hoc basis, and hence none of the developed concepts provide any practical
application. The current empirical study was undertaken to formulate a concrete
automated data quality platform to assess the quality of incoming dataset and
generate a quality label, score and comprehensive report. We utilize various
datasets from healthdata.gov, opendata.nhs and Demographics and Health Surveys
(DHS) Program to observe the variations in the quality score and formulate a
label using Principal Component Analysis(PCA). The results of the current
empirical study revealed a metric that encompasses nine quality ingredients,
namely provenance, dataset characteristics, uniformity, metadata coupling,
percentage of missing cells and duplicate rows, skewness of data, the ratio of
inconsistencies of categorical columns, and correlation between these
attributes. The study also provides an illustrative case study and validation
of the metric following Mutation Testing approaches. This research study
provides an automated platform which takes an incoming dataset and metadata to
provide the DQ score, report and label. The results of this study would be
useful to data scientists as the value of this quality label would instill
confidence before deploying the data for his/her respective practical
application.
- Abstract(参考訳): データは想像不可能な速度で拡大しており、この開発によってデータの品質の責任がもたらされる。
データ品質(data quality)とは、ある組織における意思決定や計画といった様々な操作において、存在する情報の関連性をいう。
大部分のデータ品質はアドホックなベースで測定されるため、開発された概念はいずれも実用的な応用を提供していない。
現在の実証研究は、具体的な自動データ品質プラットフォームを定式化し、入力データセットの品質を評価し、品質ラベル、スコア、包括的なレポートを生成する。
我々は,healthdata.gov,opendata.nhsおよびdhsプログラムの様々なデータセットを用いて,品質スコアの変動を観察し,主成分分析(pca)を用いてラベルを定式化する。
本研究の結果,9つの品質指標,すなわちプロヴァンス,データセット特性,均一性,メタデータ結合性,欠落セルと重複行の割合,データの歪度,分類列の不一致率,属性間の相関を包含する指標が明らかになった。
この研究は、ミューテーションテストのアプローチに続くメトリクスの実証的なケーススタディと検証も提供する。
本研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを利用する自動プラットフォームを提供する。
この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。
関連論文リスト
- A Guide to Misinformation Detection Datasets [5.673951146506489]
このガイドは、高品質なデータを取得し、より効果的な評価を行うためのロードマップを提供することを目的としている。
すべてのデータセットやその他のアーティファクトはhttps://misinfo-datasets.complexdatalab.com/.comで入手できる。
論文 参考訳(メタデータ) (2024-11-07T18:47:39Z) - Attribute-Based Semantic Type Detection and Data Quality Assessment [0.5735035463793008]
本研究では,属性に基づくセマンティック型検出とデータ品質評価を中心とした,革新的な手法を提案する。
属性ラベル内の意味情報とルールベースの分析と包括的フォーマット・省略辞書を組み合わせることで,本手法は実用的な意味型分類システムを導入する。
最先端のセマンティック型検出システムであるSherlockとの比較分析により,本手法の利点が示された。
論文 参考訳(メタデータ) (2024-10-04T09:22:44Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - A Novel Metric for Measuring Data Quality in Classification Applications
(extended version) [0.0]
データ品質を測定するための新しい指標を紹介し説明する。
この尺度は、分類性能とデータの劣化の相関した進化に基づいている。
各基準の解釈と評価レベルの例を提供する。
論文 参考訳(メタデータ) (2023-12-13T11:20:09Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - QI2 -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
欧州委員会による計画されたAI法では、データ品質に関する法的要件が規定されている。
複数のデータ品質面におけるデータ品質保証プロセスをサポートする新しいアプローチを導入する。
論文 参考訳(メタデータ) (2023-07-07T07:06:38Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - What is the Value of Data? On Mathematical Methods for Data Quality
Estimation [35.75162309592681]
与えられたデータセットの品質に関する公式な定義を提案する。
予測直径と呼ぶ量によってデータセットの品質を評価する。
論文 参考訳(メタデータ) (2020-01-09T18:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。