論文の概要: Data Quality Evaluation using Probability Models
- arxiv url: http://arxiv.org/abs/2009.06672v1
- Date: Mon, 14 Sep 2020 18:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 13:10:32.594515
- Title: Data Quality Evaluation using Probability Models
- Title(参考訳): 確率モデルを用いたデータ品質評価
- Authors: Allen ONeill
- Abstract要約: 以上の結果から, 単純な善/悪の学習例に基づいて, データの質を予測する能力は正確であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper discusses an approach with machine-learning probability models to
evaluate the difference between good and bad data quality in a dataset. A
decision tree algorithm is used to predict data quality based on no domain
knowledge of the datasets under examination. It is shown that for the data
examined, the ability to predict the quality of data based on simple good/bad
pre-labelled learning examples is accurate, however in general it may not be
sufficient for useful production data quality assessment.
- Abstract(参考訳): 本稿では,データセットにおけるデータ品質の良し悪しと良し悪しの違いを評価するために,機械学習確率モデルを用いたアプローチについて述べる。
決定木アルゴリズムは、試験中のデータセットのドメイン知識に基づいてデータ品質を予測する。
以上の結果から, 単純な良質/悪質な事前学習例に基づいてデータ品質を予測する能力は正確であるが, 一般的には, 生産データの品質評価に十分でない可能性が示唆された。
関連論文リスト
- Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs [11.24476329991465]
外部ツール使用のための大規模言語モデル(LLM)のトレーニングは、急速に拡大する分野である。
体系的なデータ品質チェックの欠如は、モデルを適切にトレーニングし、テストするための複雑さを引き起こす。
外部ツールを用いたLCMのトレーニングにおいて,データの信頼性を評価するための2つの手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T17:20:02Z) - Analyzing Dataset Annotation Quality Management in the Wild [63.07224587146207]
最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
論文 参考訳(メタデータ) (2023-07-16T21:22:40Z) - Statistical Dataset Evaluation: Reliability, Difficulty, and Validity [18.36931975072938]
自動データセット品質評価のためのモデルに依存しないデータセット評価フレームワークを提案する。
我々は、データセットの統計的性質を求め、信頼性、難易度、妥当性の3つの基本的な次元に対処する。
論文 参考訳(メタデータ) (2022-12-19T06:55:42Z) - Exploring Predictive Uncertainty and Calibration in NLP: A Study on the
Impact of Method & Data Scarcity [7.3372471678239215]
我々は、幅広いアプローチから推定値の質を評価し、利用可能なデータ量に依存する。
事前訓練されたモデルとアンサンブルに基づくアプローチは全体として最高の結果を得るが、不確実性推定の品質は驚くほど多くのデータに悩まされる。
論文 参考訳(メタデータ) (2022-10-20T15:42:02Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Predicting Seriousness of Injury in a Traffic Accident: A New Imbalanced
Dataset and Benchmark [62.997667081978825]
本稿では,交通事故における傷害の重大性を予測するために,機械学習アルゴリズムの性能を評価する新しいデータセットを提案する。
データセットは、英国運輸省から公開されているデータセットを集約することで作成される。
論文 参考訳(メタデータ) (2022-05-20T21:15:26Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Statistical Learning to Operationalize a Domain Agnostic Data Quality
Scoring [8.864453148536061]
この研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを収集する自動化プラットフォームを提供する。
この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。
論文 参考訳(メタデータ) (2021-08-16T12:20:57Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - What is the Value of Data? On Mathematical Methods for Data Quality
Estimation [35.75162309592681]
与えられたデータセットの品質に関する公式な定義を提案する。
予測直径と呼ぶ量によってデータセットの品質を評価する。
論文 参考訳(メタデータ) (2020-01-09T18:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。