論文の概要: Statistical Learning to Operationalize a Domain Agnostic Data Quality
Scoring
- arxiv url: http://arxiv.org/abs/2108.08905v1
- Date: Mon, 16 Aug 2021 12:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-29 13:26:31.617209
- Title: Statistical Learning to Operationalize a Domain Agnostic Data Quality
Scoring
- Title(参考訳): ドメインに依存しないデータ品質検査の統計的学習
- Authors: Sezal Chug, Priya Kaushal, Ponnurangam Kumaraguru, Tavpritesh Sethi
- Abstract要約: この研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを収集する自動化プラットフォームを提供する。
この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。
- 参考スコア(独自算出の注目度): 8.864453148536061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is expanding at an unimaginable rate, and with this development comes
the responsibility of the quality of data. Data Quality refers to the relevance
of the information present and helps in various operations like decision making
and planning in a particular organization. Mostly data quality is measured on
an ad-hoc basis, and hence none of the developed concepts provide any practical
application. The current empirical study was undertaken to formulate a concrete
automated data quality platform to assess the quality of incoming dataset and
generate a quality label, score and comprehensive report. We utilize various
datasets from healthdata.gov, opendata.nhs and Demographics and Health Surveys
(DHS) Program to observe the variations in the quality score and formulate a
label using Principal Component Analysis(PCA). The results of the current
empirical study revealed a metric that encompasses nine quality ingredients,
namely provenance, dataset characteristics, uniformity, metadata coupling,
percentage of missing cells and duplicate rows, skewness of data, the ratio of
inconsistencies of categorical columns, and correlation between these
attributes. The study also provides an illustrative case study and validation
of the metric following Mutation Testing approaches. This research study
provides an automated platform which takes an incoming dataset and metadata to
provide the DQ score, report and label. The results of this study would be
useful to data scientists as the value of this quality label would instill
confidence before deploying the data for his/her respective practical
application.
- Abstract(参考訳): データは想像不可能な速度で拡大しており、この開発によってデータの品質の責任がもたらされる。
データ品質(data quality)とは、ある組織における意思決定や計画といった様々な操作において、存在する情報の関連性をいう。
大部分のデータ品質はアドホックなベースで測定されるため、開発された概念はいずれも実用的な応用を提供していない。
現在の実証研究は、具体的な自動データ品質プラットフォームを定式化し、入力データセットの品質を評価し、品質ラベル、スコア、包括的なレポートを生成する。
我々は,healthdata.gov,opendata.nhsおよびdhsプログラムの様々なデータセットを用いて,品質スコアの変動を観察し,主成分分析(pca)を用いてラベルを定式化する。
本研究の結果,9つの品質指標,すなわちプロヴァンス,データセット特性,均一性,メタデータ結合性,欠落セルと重複行の割合,データの歪度,分類列の不一致率,属性間の相関を包含する指標が明らかになった。
この研究は、ミューテーションテストのアプローチに続くメトリクスの実証的なケーススタディと検証も提供する。
本研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを利用する自動プラットフォームを提供する。
この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。
関連論文リスト
- A Novel Metric for Measuring Data Quality in Classification Applications
(extended version) [0.0]
データ品質を測定するための新しい指標を紹介し説明する。
この尺度は、分類性能とデータの劣化の相関した進化に基づいている。
各基準の解釈と評価レベルの例を提供する。
論文 参考訳(メタデータ) (2023-12-13T11:20:09Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - QI2 -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
欧州委員会による計画されたAI法では、データ品質に関する法的要件が規定されている。
複数のデータ品質面におけるデータ品質保証プロセスをサポートする新しいアプローチを導入する。
論文 参考訳(メタデータ) (2023-07-07T07:06:38Z) - Assessing Dataset Quality Through Decision Tree Characteristics in
Autoencoder-Processed Spaces [0.30458514384586394]
データセットの品質がモデルトレーニングとパフォーマンスに深く影響していることを示します。
以上の結果から,適切な特徴選択,適切なデータボリューム,データ品質の重要性が浮き彫りになった。
この研究は、データアセスメントのプラクティスに関する貴重な洞察を提供し、より正確で堅牢な機械学習モデルの開発に寄与する。
論文 参考訳(メタデータ) (2023-06-27T11:33:31Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Assessing the Quality of the Datasets by Identifying Mislabeled Samples [14.881597737762316]
本稿では,各データ点の品質を測る指標として,新しい統計値(ノイズスコア)を提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
我々は、MNIST、FashionMNIST、CIFAR10/100データセットを破損させることにより、提案した統計データを検証した。
論文 参考訳(メタデータ) (2021-09-10T17:14:09Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - What is the Value of Data? On Mathematical Methods for Data Quality
Estimation [35.75162309592681]
与えられたデータセットの品質に関する公式な定義を提案する。
予測直径と呼ぶ量によってデータセットの品質を評価する。
論文 参考訳(メタデータ) (2020-01-09T18:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。