論文の概要: Autoencoder-based cleaning in probabilistic databases
- arxiv url: http://arxiv.org/abs/2106.09764v1
- Date: Thu, 17 Jun 2021 18:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 14:15:01.296836
- Title: Autoencoder-based cleaning in probabilistic databases
- Title(参考訳): 確率データベースにおけるオートエンコーダに基づくクリーニング
- Authors: R.R. Mauritz, F.P.J. Nijweide, J. Goseling, M. van Keulen
- Abstract要約: ほぼ自動でデータ品質を向上できるデータクリーニングオートエンコーダを提案する。
データの構造と依存関係を学び、疑わしい値を識別し、修正する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of data integration, data quality problems are often encountered
when extracting, combining, and merging data. The probabilistic data
integration approach represents information about such problems as
uncertainties in a probabilistic database. In this paper, we propose a
data-cleaning autoencoder capable of near-automatic data quality improvement.
It learns the structure and dependencies in the data to identify and correct
doubtful values. A theoretical framework is provided, and experiments show that
it can remove significant amounts of noise from categorical and numeric
probabilistic data. Our method does not require clean data. We do, however,
show that manually cleaning a small fraction of the data significantly improves
performance.
- Abstract(参考訳): データ統合の分野では、データの抽出、結合、マージにおいて、データ品質の問題がしばしば発生する。
確率データ統合アプローチは確率データベースにおける不確実性などの問題に関する情報を表す。
本稿では,データ品質のほぼ自動改善が可能なデータクリーニングオートエンコーダを提案する。
疑わしい値を識別し、正すために、データの構造と依存関係を学習する。
理論的枠組みが提供され、分類的および数値的確率的データからかなりの量のノイズを除去できることが実験によって示されている。
この方法はクリーンなデータを必要としない。
しかし、手作業による少数のデータのクリーニングがパフォーマンスを大幅に向上させることを示す。
関連論文リスト
- Dataset Growth [59.68869191071907]
InfoGrowthは、データのクリーニングとセレクションのための効率的なオンラインアルゴリズムである。
シングルモーダルタスクとマルチモーダルタスクの両方において、データ品質/効率を改善することができる。
論文 参考訳(メタデータ) (2024-05-28T16:43:57Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - BClean: A Bayesian Data Cleaning System [17.525913626374503]
BCleanは自動ベイズネットワーク構築とユーザインタラクションを備えたベイズクリーニングシステムである。
実世界のデータセットと合成データセットの両方で評価することにより、B BCleanはデータのクリーニングにおいて最大0.9のF測定を達成できることを示した。
論文 参考訳(メタデータ) (2023-11-11T09:22:07Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - An epistemic approach to model uncertainty in data-graphs [2.1261712640167847]
グラフデータベースは、彼らが表現しようとする実世界のデータに関して、エラーや不一致に悩まされる可能性がある。
本研究では,従来の関係データベースに提案されていた確率的不確定グラフデータベースの概念について検討する。
データクリーニングと確率的クエリ応答という2つの計算問題を定義し,その複雑さについて検討する。
論文 参考訳(メタデータ) (2021-09-29T00:08:27Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Batchwise Probabilistic Incremental Data Cleaning [5.035172070107058]
本報告では, 包括的データクリーニングを段階的に行うという課題に対処する。
私たちの知識を最大限に活用するために、私たちのコントリビューションは、データをクリーン化する最初のインクリメンタルフレームワークを構成しています。
当社のアプローチは, 品質, 実行時間, メモリ消費に関して, 競合他社よりも優れています。
論文 参考訳(メタデータ) (2020-11-09T20:15:02Z) - PClean: Bayesian Data Cleaning at Scale with Domain-Specific
Probabilistic Programming [65.88506015656951]
我々は、データセット固有の知識を活用して汚いデータのクリーン化と正規化を行う確率的プログラミング言語であるPCleanを提案する。
PCleanは、(1)確率的プログラムでカスタマイズ可能なリレーショナルデータベースインスタンスの非パラメトリックモデル、(2)モデルの構造を利用するシーケンシャルなモンテカルロ推論アルゴリズム、(3)ほぼ最適のSMC提案とブロックされたギブス再構成の3つのモデルと推論コントリビューションを利用している。
論文 参考訳(メタデータ) (2020-07-23T08:01:47Z) - Establishing strong imputation performance of a denoising autoencoder in
a wide range of missing data problems [0.0]
トレーニングと計算の両方に一貫したフレームワークを開発します。
結果と最先端の計算手法を比較検討した。
開発されたオートエンコーダは、初期データ破損のあらゆる範囲において最小の誤差を得た。
論文 参考訳(メタデータ) (2020-04-06T12:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。