論文の概要: Identifiable Generative Models for Missing Not at Random Data Imputation
- arxiv url: http://arxiv.org/abs/2110.14708v1
- Date: Wed, 27 Oct 2021 18:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 14:19:13.568772
- Title: Identifiable Generative Models for Missing Not at Random Data Imputation
- Title(参考訳): ランダムデータインプテーションに欠落した識別可能な生成モデル
- Authors: Chao Ma and Cheng Zhang
- Abstract要約: 多くの計算法は、MNARデータが存在する場合、その欠如を考慮に入れない。
本研究では,MNARにおける生成モデルの識別可能性について検討する。
軽微な仮定の下で識別可能性を保証する実用的な深層生成モデルを提案する。
- 参考スコア(独自算出の注目度): 13.790820495804567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world datasets often have missing values associated with complex
generative processes, where the cause of the missingness may not be fully
observed. This is known as missing not at random (MNAR) data. However, many
imputation methods do not take into account the missingness mechanism,
resulting in biased imputation values when MNAR data is present. Although there
are a few methods that have considered the MNAR scenario, their model's
identifiability under MNAR is generally not guaranteed. That is, model
parameters can not be uniquely determined even with infinite data samples,
hence the imputation results given by such models can still be biased. This
issue is especially overlooked by many modern deep generative models. In this
work, we fill in this gap by systematically analyzing the identifiability of
generative models under MNAR. Furthermore, we propose a practical deep
generative model which can provide identifiability guarantees under mild
assumptions, for a wide range of MNAR mechanisms. Our method demonstrates a
clear advantage for tasks on both synthetic data and multiple real-world
scenarios with MNAR data.
- Abstract(参考訳): 実世界のデータセットは、欠落の原因を完全に観察できない複雑な生成プロセスに関連する値が欠落していることが多い。
これはランダム(MNAR)データの欠落として知られている。
しかし、多くのインプテーション法は欠落機構を考慮せず、mnarデータが存在するとバイアス付きインプテーション値となる。
MNARのシナリオを考慮した手法はいくつかあるが、MNARにおけるモデルの識別性は一般に保証されていない。
すなわち、無限のデータサンプルであってもモデルパラメータは一意に決定できないため、そのようなモデルによって与えられる計算結果にはバイアスがある。
この問題は、現代の多くの深層生成モデルでは特に見過ごされている。
本研究では,MNARに基づく生成モデルの識別可能性を体系的に解析することにより,このギャップを埋める。
さらに,様々なMNAR機構に対して,軽微な仮定の下で識別可能性を保証する実用的な深層生成モデルを提案する。
本手法は, 合成データとMNARデータを用いた複数の実世界のシナリオの両方において, タスクに対して明らかな優位性を示す。
関連論文リスト
- Deep Generative Imputation Model for Missing Not At Random Data [13.56794299885683]
我々は、潜伏空間における現実の欠落メカニズムを処理するために、GNRと呼ばれる深い生成的計算モデルを利用する。
実験の結果,GNRは最先端のMNARベースラインをはるかに超え,有意なマージンを有することが明らかとなった。
論文 参考訳(メタデータ) (2023-08-16T06:01:12Z) - Sufficient Identification Conditions and Semiparametric Estimation under
Missing Not at Random Mechanisms [4.211128681972148]
統計的に有効な分析を行うことは、MNARデータの存在において困難である。
従来のMNARモデルを2つの方法で一般化したMNARモデルを考える。
そこで本稿では,確率比をパラメータとして,そのようなモデルで符号化された独立性制約をテストする手法を提案する。
論文 参考訳(メタデータ) (2023-06-10T13:46:16Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - MissDAG: Causal Discovery in the Presence of Missing Data with
Continuous Additive Noise Models [78.72682320019737]
不完全な観測データから因果発見を行うため,MissDAGと呼ばれる一般的な手法を開発した。
MissDAGは、期待-最大化の枠組みの下で観測の可視部分の期待される可能性を最大化する。
各種因果探索アルゴリズムを組み込んだMissDAGの柔軟性について,広範囲なシミュレーションと実データ実験により検証した。
論文 参考訳(メタデータ) (2022-05-27T09:59:46Z) - Learning Hidden Markov Models When the Locations of Missing Observations
are Unknown [54.40592050737724]
本研究では、未知の観測位置を持つデータからHMMを学習する際の一般的な問題について考察する。
我々は、下層の鎖の構造に関する仮定を一切必要としない再構成アルゴリズムを提供する。
適切な仕様の下では、プロセスのダイナミクスを再構築でき、また、見当たらない観測位置が分かっていたとしても、その有効性を示す。
論文 参考訳(メタデータ) (2022-03-12T22:40:43Z) - Model-based Clustering with Missing Not At Random Data [0.8777702580252754]
我々は,MNARデータを含む,非常に一般的なタイプの欠落データを扱うために設計されたモデルベースのクラスタリングアルゴリズムを提案する。
いくつかのMNARモデルについて議論し、不足の原因は、欠落変数自体の値とクラスメンバーシップの両方に依存する。
MNARzと呼ばれる特定のMNARモデルに注目する。
論文 参考訳(メタデータ) (2021-12-20T09:52:12Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Deep Generative Pattern-Set Mixture Models for Nonignorable Missingness [0.0]
無視できないデータと無視できないデータの両方をモデル化する可変オートエンコーダアーキテクチャを提案する。
モデルでは,観測されたデータと欠落マスクに基づいて,欠落したデータを欠落パターンにクラスタ化することを明示的に学習する。
当社のセットアップでは,無知かつ無知な欠如の特性をトレードオフすることで,両タイプのデータに適用することが可能である。
論文 参考訳(メタデータ) (2021-03-05T08:21:35Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Data from Model: Extracting Data from Non-robust and Robust Models [83.60161052867534]
この研究は、データとモデルの関係を明らかにするために、モデルからデータを生成する逆プロセスについて検討する。
本稿では,データ・トゥ・モデル(DtM)とデータ・トゥ・モデル(DfM)を連続的に処理し,特徴マッピング情報の喪失について検討する。
以上の結果から,DtMとDfMの複数シーケンスの後にも,特にロバストモデルにおいて精度低下が制限されることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T05:27:48Z) - VAEs in the Presence of Missing Data [6.397263087026567]
我々は、欠落したデータを生成する汚職過程の新しい潜伏変数モデルを開発し、対応する抽出可能なエビデンスローバウンド(ELBO)を導出する。
我々のモデルは実装が簡単で、無作為データ(MCAR)と無作為データ(MNAR)の両方を処理でき、高次元入力にスケールし、データ要素が欠落しているか否かの指標変数にVAEエンコーダとデコーダの両方にアクセスできる。
MNISTとSVHNデータセットでは、既存のアプローチと比較して、観測データの辺りのログライクな改善と、データ計算の欠如の改善が示されている。
論文 参考訳(メタデータ) (2020-06-09T14:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。