論文の概要: PClean: Bayesian Data Cleaning at Scale with Domain-Specific
Probabilistic Programming
- arxiv url: http://arxiv.org/abs/2007.11838v4
- Date: Tue, 27 Oct 2020 18:41:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 11:36:10.848556
- Title: PClean: Bayesian Data Cleaning at Scale with Domain-Specific
Probabilistic Programming
- Title(参考訳): pclean: ドメイン固有の確率的プログラミングによる大規模ベイズデータクリーニング
- Authors: Alexander K. Lew, Monica Agrawal, David Sontag, Vikash K. Mansinghka
- Abstract要約: 我々は、データセット固有の知識を活用して汚いデータのクリーン化と正規化を行う確率的プログラミング言語であるPCleanを提案する。
PCleanは、(1)確率的プログラムでカスタマイズ可能なリレーショナルデータベースインスタンスの非パラメトリックモデル、(2)モデルの構造を利用するシーケンシャルなモンテカルロ推論アルゴリズム、(3)ほぼ最適のSMC提案とブロックされたギブス再構成の3つのモデルと推論コントリビューションを利用している。
- 参考スコア(独自算出の注目度): 65.88506015656951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data cleaning can be naturally framed as probabilistic inference in a
generative model, combining a prior distribution over ground-truth databases
with a likelihood that models the noisy channel by which the data are filtered
and corrupted to yield incomplete, dirty, and denormalized datasets. Based on
this view, we present PClean, a probabilistic programming language for
leveraging dataset-specific knowledge to clean and normalize dirty data. PClean
is powered by three modeling and inference contributions: (1) a non-parametric
model of relational database instances, customizable via probabilistic
programs, (2) a sequential Monte Carlo inference algorithm that exploits the
model's structure, and (3) near-optimal SMC proposals and blocked Gibbs
rejuvenation moves constructed on a per-dataset basis. We show empirically that
short (< 50-line) PClean programs can be faster and more accurate than generic
PPL inference on multiple data-cleaning benchmarks; perform comparably in terms
of accuracy and runtime to state-of-the-art data-cleaning systems (unlike
generic PPL inference given the same runtime); and scale to real-world datasets
with millions of records.
- Abstract(参考訳): データクリーニングは、生成モデルにおける確率的推論として自然にフレーム化され、地平データベース上の事前分布と、データをフィルタリングして破損させたノイズチャネルをモデル化して、不完全で汚く、非正規化されたデータセットを生成する可能性を組み合わせることができる。
この観点から、データセット固有の知識を活用して汚いデータのクリーン化と正規化を行う確率的プログラミング言語であるPCleanを提案する。
pcleanは3つのモデリングと推論の貢献によって実現されている: (1) 関係データベースインスタンスの非パラメトリックモデル、確率的プログラムでカスタマイズ可能、(2) モデルの構造を利用する逐次モンテカルロ推論アルゴリズム、(3) データセットごとに構築された至近のsmc提案とブロックされたgibbs再帰動作。
短い(<50行)pcleanプログラムは、複数のデータクリーニングベンチマークでジェネリックppl推論よりも高速かつ正確であること、(同じランタイムで与えられたジェネリックppl推論とは異なり)最先端のデータクリーニングシステムに対する精度と実行時間で比較可能であること、そして数百万レコードの実際のデータセットにスケールできることを実証的に示します。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - BClean: A Bayesian Data Cleaning System [17.525913626374503]
BCleanは自動ベイズネットワーク構築とユーザインタラクションを備えたベイズクリーニングシステムである。
実世界のデータセットと合成データセットの両方で評価することにより、B BCleanはデータのクリーニングにおいて最大0.9のF測定を達成できることを示した。
論文 参考訳(メタデータ) (2023-11-11T09:22:07Z) - On Calibrating Diffusion Probabilistic Models [78.75538484265292]
拡散確率モデル(DPM)は様々な生成タスクにおいて有望な結果を得た。
そこで本研究では,任意の事前学習DPMを校正する簡単な方法を提案する。
キャリブレーション法は1回だけ行い, 得られたモデルをサンプリングに繰り返し使用することができる。
論文 参考訳(メタデータ) (2023-02-21T14:14:40Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - An epistemic approach to model uncertainty in data-graphs [2.1261712640167847]
グラフデータベースは、彼らが表現しようとする実世界のデータに関して、エラーや不一致に悩まされる可能性がある。
本研究では,従来の関係データベースに提案されていた確率的不確定グラフデータベースの概念について検討する。
データクリーニングと確率的クエリ応答という2つの計算問題を定義し,その複雑さについて検討する。
論文 参考訳(メタデータ) (2021-09-29T00:08:27Z) - Noise-Resistant Deep Metric Learning with Probabilistic Instance
Filtering [59.286567680389766]
ノイズラベルは現実世界のデータによく見られ、ディープニューラルネットワークの性能劣化を引き起こす。
DMLのための確率的ランク付けに基づくメモリを用いたインスタンス選択(PRISM)手法を提案する。
PRISMはラベルがクリーンである確率を計算し、潜在的にノイズの多いサンプルをフィルタリングする。
論文 参考訳(メタデータ) (2021-08-03T12:15:25Z) - Autoencoder-based cleaning in probabilistic databases [0.0]
ほぼ自動でデータ品質を向上できるデータクリーニングオートエンコーダを提案する。
データの構造と依存関係を学び、疑わしい値を識別し、修正する。
論文 参考訳(メタデータ) (2021-06-17T18:46:56Z) - tsrobprep -- an R package for robust preprocessing of time series data [0.0]
オープンソースパッケージ tsrobprep は、欠落した値と外れ値を処理する効率的な方法を紹介します。
データインプットには、自己回帰コンポーネントと外部入力からなる確率的置換モデルが提案されている。
異常検出のために、典型的な時系列関連特性を特徴とする有限混合モデルに基づくクラスタリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-04-26T15:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。