論文の概要: An epistemic approach to model uncertainty in data-graphs
- arxiv url: http://arxiv.org/abs/2109.14112v1
- Date: Wed, 29 Sep 2021 00:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:44:17.689377
- Title: An epistemic approach to model uncertainty in data-graphs
- Title(参考訳): データグラフにおけるモデル不確実性に対する疫学的アプローチ
- Authors: Sergio Abriola, Santiago Cifuentes, Mar\'ia Vanina Mart\'inez, Nina
Pardal, Edwin Pin
- Abstract要約: グラフデータベースは、彼らが表現しようとする実世界のデータに関して、エラーや不一致に悩まされる可能性がある。
本研究では,従来の関係データベースに提案されていた確率的不確定グラフデータベースの概念について検討する。
データクリーニングと確率的クエリ応答という2つの計算問題を定義し,その複雑さについて検討する。
- 参考スコア(独自算出の注目度): 2.1261712640167847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph databases are becoming widely successful as data models that allow to
effectively represent and process complex relationships among various types of
data. As with any other type of data repository, graph databases may suffer
from errors and discrepancies with respect to the real-world data they intend
to represent. In this work we explore the notion of probabilistic unclean graph
databases, previously proposed for relational databases, in order to capture
the idea that the observed (unclean) graph database is actually the noisy
version of a clean one that correctly models the world but that we know
partially. As the factors that may be involved in the observation can be many,
e.g, all different types of clerical errors or unintended transformations of
the data, we assume a probabilistic model that describes the distribution over
all possible ways in which the clean (uncertain) database could have been
polluted. Based on this model we define two computational problems: data
cleaning and probabilistic query answering and study for both of them their
corresponding complexity when considering that the transformation of the
database can be caused by either removing (subset) or adding (superset) nodes
and edges.
- Abstract(参考訳): グラフデータベースは、さまざまなタイプのデータ間の複雑な関係を効果的に表現し処理できるデータモデルとして、広く成功しています。
他のタイプのデータリポジトリと同様に、グラフデータベースは、彼らが表現しようとする現実世界のデータに関して、エラーや不一致に悩まされる可能性がある。
本研究では,これまでリレーショナルデータベースで提案されていた確率的アンクルグラフデータベースの概念を探求し,観測された(クリーンでない)グラフデータベースが,実際には世界を正しくモデル化するクリーンなデータベースのノイズバージョンである,という考え方を捉えた。
例えば、あらゆる種類の聖職者の誤りや意図しないデータの変換など、観測に関わる可能性のある要素が多数存在するため、クリーンな(不確実な)データベースが汚染される可能性のあるあらゆる方法で分布を記述する確率論的モデルが想定される。
このモデルに基づいて、データクリーニングと確率的クエリ応答という2つの計算問題を定義し、データベースの変換が(サブセット)削除または(スーパーセット)ノードとエッジの追加によって引き起こされる可能性があることを考慮し、両者の複雑さについて検討する。
関連論文リスト
- Estimating Causal Effects from Learned Causal Networks [56.14597641617531]
本稿では、離散可観測変数に対する因果影響クエリに応答する代替パラダイムを提案する。
観測データから直接因果ベイズネットワークとその共起潜伏変数を学習する。
本手法は, 推定手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-08-26T08:39:09Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Autoencoder-based cleaning in probabilistic databases [0.0]
ほぼ自動でデータ品質を向上できるデータクリーニングオートエンコーダを提案する。
データの構造と依存関係を学び、疑わしい値を識別し、修正する。
論文 参考訳(メタデータ) (2021-06-17T18:46:56Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - PClean: Bayesian Data Cleaning at Scale with Domain-Specific
Probabilistic Programming [65.88506015656951]
我々は、データセット固有の知識を活用して汚いデータのクリーン化と正規化を行う確率的プログラミング言語であるPCleanを提案する。
PCleanは、(1)確率的プログラムでカスタマイズ可能なリレーショナルデータベースインスタンスの非パラメトリックモデル、(2)モデルの構造を利用するシーケンシャルなモンテカルロ推論アルゴリズム、(3)ほぼ最適のSMC提案とブロックされたギブス再構成の3つのモデルと推論コントリビューションを利用している。
論文 参考訳(メタデータ) (2020-07-23T08:01:47Z) - Learning Over Dirty Data Without Cleaning [12.892359722606681]
実世界のデータセットは汚く、多くのエラーを含んでいる。
汚いデータベース上での学習は、不正確なモデルをもたらす可能性がある。
本稿では,新しい関係学習システムDLearnを提案する。
論文 参考訳(メタデータ) (2020-04-05T20:21:13Z) - Symbolic Querying of Vector Spaces: Probabilistic Databases Meets
Relational Embeddings [35.877591735510734]
すべてのクエリが実行される確率的データベースモデルを形式化する。
十分に定義された連立確率分布の欠如は、単純な問合せ問題を証明し難いものにする。
本稿では, トラクタブル確率データベースとして設計したリレーショナル埋め込みモデルTOを紹介する。
論文 参考訳(メタデータ) (2020-02-24T01:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。