論文の概要: Deep Generative Imputation Model for Missing Not At Random Data
- arxiv url: http://arxiv.org/abs/2308.08158v1
- Date: Wed, 16 Aug 2023 06:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 14:42:22.787885
- Title: Deep Generative Imputation Model for Missing Not At Random Data
- Title(参考訳): ランダムデータに欠かせない深部生成的インプットモデル
- Authors: Jialei Chen, Yuanbo Xu, Pengyang Wang, Yongjian Yang
- Abstract要約: 我々は、潜伏空間における現実の欠落メカニズムを処理するために、GNRと呼ばれる深い生成的計算モデルを利用する。
実験の結果,GNRは最先端のMNARベースラインをはるかに超え,有意なマージンを有することが明らかとなった。
- 参考スコア(独自算出の注目度): 13.56794299885683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data analysis usually suffers from the Missing Not At Random (MNAR) problem,
where the cause of the value missing is not fully observed. Compared to the
naive Missing Completely At Random (MCAR) problem, it is more in line with the
realistic scenario whereas more complex and challenging. Existing statistical
methods model the MNAR mechanism by different decomposition of the joint
distribution of the complete data and the missing mask. But we empirically find
that directly incorporating these statistical methods into deep generative
models is sub-optimal. Specifically, it would neglect the confidence of the
reconstructed mask during the MNAR imputation process, which leads to
insufficient information extraction and less-guaranteed imputation quality. In
this paper, we revisit the MNAR problem from a novel perspective that the
complete data and missing mask are two modalities of incomplete data on an
equal footing. Along with this line, we put forward a generative-model-specific
joint probability decomposition method, conjunction model, to represent the
distributions of two modalities in parallel and extract sufficient information
from both complete data and missing mask. Taking a step further, we exploit a
deep generative imputation model, namely GNR, to process the real-world missing
mechanism in the latent space and concurrently impute the incomplete data and
reconstruct the missing mask. The experimental results show that our GNR
surpasses state-of-the-art MNAR baselines with significant margins (averagely
improved from 9.9% to 18.8% in RMSE) and always gives a better mask
reconstruction accuracy which makes the imputation more principle.
- Abstract(参考訳): データ分析は通常、無作為な(mnar)問題ではなく、値の欠落の原因が完全には観察されない問題に苦しむ。
ランダム(mcar)問題で完全に欠けているナイーブと比較して、より複雑で挑戦的な現実的シナリオと一致している。
既存の統計手法は、MNAR機構を、完全データと欠損マスクの結合分布の異なる分解によってモデル化する。
しかし、これらの統計手法を直接深層生成モデルに組み込むことは、準最適である。
具体的には、mnarインプテーション過程における再構成マスクの信頼性を無視し、情報の抽出が不十分で、インプテーション品質が低下する。
本稿では,MNAR問題を再考し,完全データと欠落マスクは等しい足場上の不完全データの2つのモダリティであることを示す。
本稿では,2つのモードの分布を並列に表現し,完全なデータと欠落マスクから十分な情報を抽出するために,生成モデル固有の結合確率分解法,結合モデルを提案する。
さらに一歩進めて,実世界の欠落機構を潜在空間で処理し,不完全なデータを同時にインデュートし,欠落したマスクを再構築するために,深い生成的インプテーションモデルであるgnrを利用する。
実験の結果,GNR は最先端の MNAR ベースラインをはるかに上回り (平均 9.9% から 18.8% に改善) , 常にマスク再構成精度が向上し, インキュベーションの原理化が図られた。
関連論文リスト
- Sufficient Identification Conditions and Semiparametric Estimation under
Missing Not at Random Mechanisms [4.211128681972148]
統計的に有効な分析を行うことは、MNARデータの存在において困難である。
従来のMNARモデルを2つの方法で一般化したMNARモデルを考える。
そこで本稿では,確率比をパラメータとして,そのようなモデルで符号化された独立性制約をテストする手法を提案する。
論文 参考訳(メタデータ) (2023-06-10T13:46:16Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - MissDAG: Causal Discovery in the Presence of Missing Data with
Continuous Additive Noise Models [78.72682320019737]
不完全な観測データから因果発見を行うため,MissDAGと呼ばれる一般的な手法を開発した。
MissDAGは、期待-最大化の枠組みの下で観測の可視部分の期待される可能性を最大化する。
各種因果探索アルゴリズムを組み込んだMissDAGの柔軟性について,広範囲なシミュレーションと実データ実験により検証した。
論文 参考訳(メタデータ) (2022-05-27T09:59:46Z) - Model-based Clustering with Missing Not At Random Data [0.8777702580252754]
我々は,MNARデータを含む,非常に一般的なタイプの欠落データを扱うために設計されたモデルベースのクラスタリングアルゴリズムを提案する。
いくつかのMNARモデルについて議論し、不足の原因は、欠落変数自体の値とクラスメンバーシップの両方に依存する。
MNARzと呼ばれる特定のMNARモデルに注目する。
論文 参考訳(メタデータ) (2021-12-20T09:52:12Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Identifiable Generative Models for Missing Not at Random Data Imputation [13.790820495804567]
多くの計算法は、MNARデータが存在する場合、その欠如を考慮に入れない。
本研究では,MNARにおける生成モデルの識別可能性について検討する。
軽微な仮定の下で識別可能性を保証する実用的な深層生成モデルを提案する。
論文 参考訳(メタデータ) (2021-10-27T18:51:38Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Masksembles for Uncertainty Estimation [60.400102501013784]
ディープニューラルネットワークは、その強みを巧みに実証しているが、その予測の信頼性を推定することは依然として困難である。
深層アンサンブルは不確かさを推定する最良の方法の1つと考えられているが、訓練や評価は非常に高価である。
mc-dropoutも人気の高い代替品で、安価だが信頼性も低い。
論文 参考訳(メタデータ) (2020-12-15T14:39:57Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - NeuMiss networks: differentiable programming for supervised learning
with missing values [0.0]
線形性仮定の下で最適予測器の解析形式を導出する。
我々はNeuMissネットワークという新しい原則アーキテクチャを提案する。
パラメータの数と、欠落したデータパターンの数に依存しない計算複雑性の両方で、予測精度が良い。
論文 参考訳(メタデータ) (2020-07-03T11:42:25Z) - VAEs in the Presence of Missing Data [6.397263087026567]
我々は、欠落したデータを生成する汚職過程の新しい潜伏変数モデルを開発し、対応する抽出可能なエビデンスローバウンド(ELBO)を導出する。
我々のモデルは実装が簡単で、無作為データ(MCAR)と無作為データ(MNAR)の両方を処理でき、高次元入力にスケールし、データ要素が欠落しているか否かの指標変数にVAEエンコーダとデコーダの両方にアクセスできる。
MNISTとSVHNデータセットでは、既存のアプローチと比較して、観測データの辺りのログライクな改善と、データ計算の欠如の改善が示されている。
論文 参考訳(メタデータ) (2020-06-09T14:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。