論文の概要: Auto-Test: Learning Semantic-Domain Constraints for Unsupervised Error Detection in Tables
- arxiv url: http://arxiv.org/abs/2504.10762v1
- Date: Mon, 14 Apr 2025 23:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:06:11.407907
- Title: Auto-Test: Learning Semantic-Domain Constraints for Unsupervised Error Detection in Tables
- Title(参考訳): 自動テスト: テーブルにおける教師なしエラー検出のための意味領域制約の学習
- Authors: Qixu Chen, Yeye He, Raymond Chi-Wing Wong, Weiwei Cui, Song Ge, Haidong Zhang, Dongmei Zhang, Surajit Chaudhuri,
- Abstract要約: 本稿では,任意のテーブルに確実に推論し,自動的に適用可能なデータ品質制約の新たなクラスを提案する。
本研究では,このような制約をテーブルコーパスから体系的に学習するフレームワークを開発した。
この新たな制約は,(1)実際のテーブル上のエラーを直接検出し,(2)既存の専門家主導型データクリーニング手法を拡張できることを示す。
- 参考スコア(独自算出の注目度): 43.554705131726905
- License:
- Abstract: Data cleaning is a long-standing challenge in data management. While powerful logic and statistical algorithms have been developed to detect and repair data errors in tables, existing algorithms predominantly rely on domain-experts to first manually specify data-quality constraints specific to a given table, before data cleaning algorithms can be applied. In this work, we propose a new class of data-quality constraints that we call Semantic-Domain Constraints, which can be reliably inferred and automatically applied to any tables, without requiring domain-experts to manually specify on a per-table basis. We develop a principled framework to systematically learn such constraints from table corpora using large-scale statistical tests, which can further be distilled into a core set of constraints using our optimization framework, with provable quality guarantees. Extensive evaluations show that this new class of constraints can be used to both (1) directly detect errors on real tables in the wild, and (2) augment existing expert-driven data-cleaning techniques as a new class of complementary constraints. Our extensively labeled benchmark dataset with 2400 real data columns, as well as our code are available at https://github.com/qixuchen/AutoTest to facilitate future research.
- Abstract(参考訳): データクリーニングは、データ管理における長年の課題である。
テーブル内のデータエラーを検出し、修復するために強力な論理アルゴリズムと統計アルゴリズムが開発されたが、既存のアルゴリズムは、データクリーニングアルゴリズムを適用する前に、まずは、テーブルに固有のデータ品質の制約を手動で指定するドメインエキスパートに依存している。
本研究では,セマンティック・ドメイン制約(Semantic-Domain Constraints)と呼ぶデータ品質制約の新たなクラスを提案する。
本研究では,大規模統計テストを用いてテーブルコーパスからこのような制約を体系的に学習するフレームワークを開発し,最適化フレームワークを用いて制約のコアセットに抽出し,品質保証を実現する。
この新たな制約のクラスは,(1)実際のテーブル上のエラーを直接検出し,(2)既存の専門家主導型データクリーン化手法を補完的制約の新たなクラスとして拡張する,という2つの方法に有効である。
広範なラベル付きベンチマークデータセットには2400の実際のデータ列とコードが含まれており、将来の研究を促進するためにhttps://github.com/qixuchen/AutoTestで利用可能です。
関連論文リスト
- Making Binary Classification from Multiple Unlabeled Datasets Almost
Free of Supervision [128.6645627461981]
本稿では,複数ラベル付きデータセットからの2値分類という新たな問題設定を提案する。
MU-OPPOでは、ラベル付けされていないすべてのデータセットのクラスプリエントは不要です。
このフレームワークは,クラス前の推定誤差が小さくなり,バイナリ分類の性能が向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T11:33:46Z) - Calibrated Data-Dependent Constraints with Exact Satisfaction Guarantees [46.94549066382216]
データに依存した制約で機械学習モデルを訓練する作業について検討する。
我々は、データ依存の制約を校正するように修正し、修正された制約を強制することで、期待値の制約がユーザによって規定された確率で満たされることを保証する。
論文 参考訳(メタデータ) (2023-01-15T21:41:40Z) - Promises and Pitfalls of Threshold-based Auto-labeling [17.349289155257715]
Threshold-based auto-labeling (TBAL)
我々は,機械ラベルデータの品質を保証するために必要な人間ラベル付き検証データの量に基づいて,複雑性境界を導出する。
我々は、合成データセットと実データセットに関する広範な実験により、理論的保証を検証する。
論文 参考訳(メタデータ) (2022-11-22T22:53:17Z) - Comparing Shape-Constrained Regression Algorithms for Data Validation [0.0]
産業や科学の応用は、人間の手作業による検証が不可能な大量のデータを扱う。
本研究では,その分類精度と実行時性能に基づいて,データ検証を目的として,異なる形状制約付き回帰アルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-09-20T10:31:20Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Learn then Test: Calibrating Predictive Algorithms to Achieve Risk
Control [67.52000805944924]
Learn then Test (LTT)は、機械学習モデルを校正するフレームワークである。
私たちの主な洞察は、リスクコントロール問題を複数の仮説テストとして再設計することです。
我々は、コンピュータビジョンの詳細な実例を用いて、コア機械学習タスクの新しいキャリブレーション手法を提供するために、我々のフレームワークを使用します。
論文 参考訳(メタデータ) (2021-10-03T17:42:03Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Self-Training with Weak Supervision [32.68342091430266]
最先端のディープニューラルネットワークには、多くのタスクで入手するのに高価な大規模なラベル付きトレーニングデータが必要です。
ドメイン固有のルールの形での弱い監視は、そのような設定で有用であることが示されている。
我々は、与えられたタスクに利用可能なすべてのデータを活用する弱い監視フレームワーク(ASTRA)を開発する。
論文 参考訳(メタデータ) (2021-04-12T14:45:04Z) - Low-Budget Label Query through Domain Alignment Enforcement [48.06803561387064]
我々は低予算ラベルクエリと呼ばれる新しい問題に取り組む。
まず、ソースとターゲットドメインの整合性を改善するために、Unsupervised Domain Adaptation (UDA) 法を改善します。
そこで我々は,予測整合分布の均一サンプリングに基づく簡易かつ効果的な選択法を提案する。
論文 参考訳(メタデータ) (2020-01-01T16:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。