Fugu-MT 論文翻訳(概要): Statistical Learning to Operationalize a Domain Agnostic Data Quality Scoring

論文の概要: Statistical Learning to Operationalize a Domain Agnostic Data Quality Scoring

arxiv url: http://arxiv.org/abs/2108.08905v1
Date: Mon, 16 Aug 2021 12:20:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-29 13:26:31.617209
Title: Statistical Learning to Operationalize a Domain Agnostic Data Quality Scoring
Title（参考訳）: ドメインに依存しないデータ品質検査の統計的学習
Authors: Sezal Chug, Priya Kaushal, Ponnurangam Kumaraguru, Tavpritesh Sethi
Abstract要約: この研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを収集する自動化プラットフォームを提供する。この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。
参考スコア（独自算出の注目度）: 8.864453148536061
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data is expanding at an unimaginable rate, and with this development comes the responsibility of the quality of data. Data Quality refers to the relevance of the information present and helps in various operations like decision making and planning in a particular organization. Mostly data quality is measured on an ad-hoc basis, and hence none of the developed concepts provide any practical application. The current empirical study was undertaken to formulate a concrete automated data quality platform to assess the quality of incoming dataset and generate a quality label, score and comprehensive report. We utilize various datasets from healthdata.gov, opendata.nhs and Demographics and Health Surveys (DHS) Program to observe the variations in the quality score and formulate a label using Principal Component Analysis(PCA). The results of the current empirical study revealed a metric that encompasses nine quality ingredients, namely provenance, dataset characteristics, uniformity, metadata coupling, percentage of missing cells and duplicate rows, skewness of data, the ratio of inconsistencies of categorical columns, and correlation between these attributes. The study also provides an illustrative case study and validation of the metric following Mutation Testing approaches. This research study provides an automated platform which takes an incoming dataset and metadata to provide the DQ score, report and label. The results of this study would be useful to data scientists as the value of this quality label would instill confidence before deploying the data for his/her respective practical application.
Abstract（参考訳）: データは想像不可能な速度で拡大しており、この開発によってデータの品質の責任がもたらされる。データ品質(data quality)とは、ある組織における意思決定や計画といった様々な操作において、存在する情報の関連性をいう。大部分のデータ品質はアドホックなベースで測定されるため、開発された概念はいずれも実用的な応用を提供していない。現在の実証研究は、具体的な自動データ品質プラットフォームを定式化し、入力データセットの品質を評価し、品質ラベル、スコア、包括的なレポートを生成する。我々は,healthdata.gov,opendata.nhsおよびdhsプログラムの様々なデータセットを用いて,品質スコアの変動を観察し,主成分分析(pca)を用いてラベルを定式化する。本研究の結果,9つの品質指標,すなわちプロヴァンス,データセット特性,均一性,メタデータ結合性,欠落セルと重複行の割合,データの歪度,分類列の不一致率,属性間の相関を包含する指標が明らかになった。この研究は、ミューテーションテストのアプローチに続くメトリクスの実証的なケーススタディと検証も提供する。本研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを利用する自動プラットフォームを提供する。この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。

関連論文リスト

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。 ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文参考訳（メタデータ） (2025-12-16T03:33:24Z)
Medical Data Pecking: A Context-Aware Approach for Automated Quality Evaluation of Structured Medical Data [5.681039620785591]
EHRデータには、サブポピュレーションやバイアス、体系的なエラーなど、重要な品質上の問題が含まれていることが多い。既存の品質評価手法は依然として不十分であり、研究のためのデータ適合性を評価する体系的な手順が欠如している。データ品質の懸念を識別するために,ソフトウェア工学からの単体テストとカバレッジの概念を適用した医療データペッキング手法を提案する。
論文参考訳（メタデータ） (2025-07-03T13:54:50Z)
Call for Rigor in Reporting Quality of Instruction Tuning Data [7.284192559306471]
研究は、インストラクションチューニング(IT)データの品質の重要性を強調している。この実践から生じる潜在的な問題を実証し、データ品質を検証する上で慎重に検討する必要があることを強調する。
論文参考訳（メタデータ） (2025-03-04T02:04:58Z)
A Guide to Misinformation Detection Datasets [5.673951146506489]
このガイドは、高品質なデータを取得し、より効果的な評価を行うためのロードマップを提供することを目的としている。すべてのデータセットやその他のアーティファクトはhttps://misinfo-datasets.complexdatalab.com/.comで入手できる。
論文参考訳（メタデータ） (2024-11-07T18:47:39Z)
Attribute-Based Semantic Type Detection and Data Quality Assessment [0.5735035463793008]
本研究では,属性に基づくセマンティック型検出とデータ品質評価を中心とした,革新的な手法を提案する。属性ラベル内の意味情報とルールベースの分析と包括的フォーマット・省略辞書を組み合わせることで,本手法は実用的な意味型分類システムを導入する。最先端のセマンティック型検出システムであるSherlockとの比較分析により,本手法の利点が示された。
論文参考訳（メタデータ） (2024-10-04T09:22:44Z)
ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文参考訳（メタデータ） (2024-07-24T01:46:55Z)
Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文参考訳（メタデータ） (2024-06-20T16:34:07Z)
A Novel Metric for Measuring Data Quality in Classification Applications (extended version) [0.0]
データ品質を測定するための新しい指標を紹介し説明する。この尺度は、分類性能とデータの劣化の相関した進化に基づいている。各基準の解釈と評価レベルの例を提供する。
論文参考訳（メタデータ） (2023-12-13T11:20:09Z)
Collect, Measure, Repeat: Reliability Factors for Responsible AI Data Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文参考訳（メタデータ） (2023-08-22T18:01:27Z)
QI2 -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
欧州委員会による計画されたAI法では、データ品質に関する法的要件が規定されている。複数のデータ品質面におけるデータ品質保証プロセスをサポートする新しいアプローチを導入する。
論文参考訳（メタデータ） (2023-07-07T07:06:38Z)
Investigating Data Variance in Evaluations of Automatic Machine Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文参考訳（メタデータ） (2022-03-29T18:58:28Z)
Data-SUITE: Data-centric identification of in-distribution incongruous examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文参考訳（メタデータ） (2022-02-17T18:58:31Z)
Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文参考訳（メタデータ） (2020-06-10T20:20:10Z)
What is the Value of Data? On Mathematical Methods for Data Quality Estimation [35.75162309592681]
与えられたデータセットの品質に関する公式な定義を提案する。予測直径と呼ぶ量によってデータセットの品質を評価する。
論文参考訳（メタデータ） (2020-01-09T18:56:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。