Fugu-MT 論文翻訳(概要): Data Quality Evaluation using Probability Models

論文の概要: Data Quality Evaluation using Probability Models

arxiv url: http://arxiv.org/abs/2009.06672v1
Date: Mon, 14 Sep 2020 18:12:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-18 13:10:32.594515
Title: Data Quality Evaluation using Probability Models
Title（参考訳）: 確率モデルを用いたデータ品質評価
Authors: Allen ONeill
Abstract要約: 以上の結果から, 単純な善/悪の学習例に基づいて, データの質を予測する能力は正確であることが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper discusses an approach with machine-learning probability models to evaluate the difference between good and bad data quality in a dataset. A decision tree algorithm is used to predict data quality based on no domain knowledge of the datasets under examination. It is shown that for the data examined, the ability to predict the quality of data based on simple good/bad pre-labelled learning examples is accurate, however in general it may not be sufficient for useful production data quality assessment.
Abstract（参考訳）: 本稿では,データセットにおけるデータ品質の良し悪しと良し悪しの違いを評価するために,機械学習確率モデルを用いたアプローチについて述べる。決定木アルゴリズムは、試験中のデータセットのドメイン知識に基づいてデータ品質を予測する。以上の結果から, 単純な良質/悪質な事前学習例に基づいてデータ品質を予測する能力は正確であるが, 一般的には, 生産データの品質評価に十分でない可能性が示唆された。

関連論文リスト

DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs [11.24476329991465]
外部ツール使用のための大規模言語モデル(LLM)のトレーニングは、急速に拡大する分野である。体系的なデータ品質チェックの欠如は、モデルを適切にトレーニングし、テストするための複雑さを引き起こす。外部ツールを用いたLCMのトレーニングにおいて,データの信頼性を評価するための2つの手法を提案する。
論文参考訳（メタデータ） (2024-09-24T17:20:02Z)
Analyzing Dataset Annotation Quality Management in the Wild [63.07224587146207]
最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
論文参考訳（メタデータ） (2023-07-16T21:22:40Z)
Statistical Dataset Evaluation: Reliability, Difficulty, and Validity [18.36931975072938]
自動データセット品質評価のためのモデルに依存しないデータセット評価フレームワークを提案する。我々は、データセットの統計的性質を求め、信頼性、難易度、妥当性の3つの基本的な次元に対処する。
論文参考訳（メタデータ） (2022-12-19T06:55:42Z)
Exploring Predictive Uncertainty and Calibration in NLP: A Study on the Impact of Method & Data Scarcity [7.3372471678239215]
我々は、幅広いアプローチから推定値の質を評価し、利用可能なデータ量に依存する。事前訓練されたモデルとアンサンブルに基づくアプローチは全体として最高の結果を得るが、不確実性推定の品質は驚くほど多くのデータに悩まされる。
論文参考訳（メタデータ） (2022-10-20T15:42:02Z)
Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文参考訳（メタデータ） (2022-10-17T05:40:13Z)
Predicting Seriousness of Injury in a Traffic Accident: A New Imbalanced Dataset and Benchmark [62.997667081978825]
本稿では,交通事故における傷害の重大性を予測するために,機械学習アルゴリズムの性能を評価する新しいデータセットを提案する。データセットは、英国運輸省から公開されているデータセットを集約することで作成される。
論文参考訳（メタデータ） (2022-05-20T21:15:26Z)
Data-SUITE: Data-centric identification of in-distribution incongruous examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文参考訳（メタデータ） (2022-02-17T18:58:31Z)
Statistical Learning to Operationalize a Domain Agnostic Data Quality Scoring [8.864453148536061]
この研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを収集する自動化プラットフォームを提供する。この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。
論文参考訳（メタデータ） (2021-08-16T12:20:57Z)
Doing Great at Estimating CATE? On the Neglected Assumptions in Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文参考訳（メタデータ） (2021-07-28T13:21:27Z)
How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文参考訳（メタデータ） (2020-05-25T12:13:49Z)
What is the Value of Data? On Mathematical Methods for Data Quality Estimation [35.75162309592681]
与えられたデータセットの品質に関する公式な定義を提案する。予測直径と呼ぶ量によってデータセットの品質を評価する。
論文参考訳（メタデータ） (2020-01-09T18:56:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。