論文の概要: Recursive Equations For Imputation Of Missing Not At Random Data With Sparse Pattern Support
- arxiv url: http://arxiv.org/abs/2507.16107v1
- Date: Mon, 21 Jul 2025 23:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.9075
- Title: Recursive Equations For Imputation Of Missing Not At Random Data With Sparse Pattern Support
- Title(参考訳): スパースパターン支援によるランダムデータにおけるミス計算の帰納的方程式
- Authors: Trung Phung, Kyle Reese, Ilya Shpitser, Rohit Bhattacharya,
- Abstract要約: データ分析パイプラインで欠落した値を処理するための一般的なアプローチは、ソフトウェアパッケージによる複数の命令である。
我々は、欠落したデータのグラフィカルモデルにおける全データ法則の新たな特徴付けを開発する。
MISPRは、データがMARの場合、MICEに匹敵する結果を得るが、MNARの場合、より優れ、バイアスの少ない結果が得られる。
- 参考スコア(独自算出の注目度): 8.863778901027061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common approach for handling missing values in data analysis pipelines is multiple imputation via software packages such as MICE (Van Buuren and Groothuis-Oudshoorn, 2011) and Amelia (Honaker et al., 2011). These packages typically assume the data are missing at random (MAR), and impose parametric or smoothing assumptions upon the imputing distributions in a way that allows imputation to proceed even if not all missingness patterns have support in the data. Such assumptions are unrealistic in practice, and induce model misspecification bias on any analysis performed after such imputation. In this paper, we provide a principled alternative. Specifically, we develop a new characterization for the full data law in graphical models of missing data. This characterization is constructive, is easily adapted for the calculation of imputation distributions for both MAR and MNAR (missing not at random) mechanisms, and is able to handle lack of support for certain patterns of missingness. We use this characterization to develop a new imputation algorithm -- Multivariate Imputation via Supported Pattern Recursion (MISPR) -- which uses Gibbs sampling, by analogy with the Multivariate Imputation with Chained Equations (MICE) algorithm, but which is consistent under both MAR and MNAR settings, and is able to handle missing data patterns with no support without imposing additional assumptions beyond those already imposed by the missing data model itself. In simulations, we show MISPR obtains comparable results to MICE when data are MAR, and superior, less biased results when data are MNAR. Our characterization and imputation algorithm based on it are a step towards making principled missing data methods more practical in applied settings, where the data are likely both MNAR and sufficiently high dimensional to yield missing data patterns with no support at available sample sizes.
- Abstract(参考訳): データ分析パイプラインの欠落値を扱う一般的なアプローチは、MICE (Van Buuren と Groothuis-Oudshoorn, 2011) や Amelia (Honaker et al , 2011) といったソフトウェアパッケージによる多重計算である。
これらのパッケージは典型的には、データがランダム(MAR)で欠落していると仮定し、データにすべての欠落パターンがサポートされていない場合でも、インプットの進行を可能にする方法で、パラメトリックまたはスムーズな仮定を命令分布に課す。
そのような仮定は実際は非現実的であり、そのような計算の後に行われたあらゆる分析に対してモデル不特定バイアスを誘導する。
本稿では,原則的代替案を提案する。
具体的には、欠落したデータのグラフィカルモデルにおいて、全データ法則の新たな特徴付けを開発する。
この特性は構成的であり、MARとMNARの両方の(ランダムではない)機構の計算に容易に適応でき、特定の欠落パターンに対するサポートの欠如に対処できる。
この特徴付けを使用して、新しい計算アルゴリズム -- Supported Pattern Recursion (MISPR) -- Gibbsサンプリングをチェイン方程式(MICE)アルゴリズムと類似して使用するが、MARとMNAR設定の両方で一貫性があり、欠落したデータパターンを、すでに欠落したデータモデル自体によって課された仮定以上の追加の仮定を課すことなく処理することができる。
シミュレーションでは、MISPRは、データがMARの場合、MICEに匹敵する結果を得るが、MNARの場合、より優れ、バイアスの少ない結果を得る。
提案アルゴリズムは,MNARと十分高次元のデータパターンの両面において,利用可能なサンプルサイズを考慮せずにデータパターンの欠落を生じさせるような,原理化された欠落データ手法をより実用的なものにするためのステップである。
関連論文リスト
- When Pattern-by-Pattern Works: Theoretical and Empirical Insights for Logistic Models with Missing Values [10.051332392614368]
パターン・バイ・パタン戦略 (PbP) がベイズ確率を正確に近似することを証明する。
我々の分析は、欠落した値によるロジスティック回帰に関する総合的な見解を提供する。
論文 参考訳(メタデータ) (2025-07-17T11:52:27Z) - DiffPuter: Empowering Diffusion Models for Missing Data Imputation [56.48119008663155]
本稿ではDiffPuterについて紹介する。DiffPuterは、データ計算の欠如に対する期待最大化(EM)アルゴリズムと組み合わせた、カスタマイズされた拡散モデルである。
我々の理論的解析は、DiffPuterのトレーニングステップがデータ密度の最大推定値に対応することを示している。
DiffPuterは,最も競争力のある既存手法と比較して,MAEが6.94%,RMSEが4.78%向上した。
論文 参考訳(メタデータ) (2024-05-31T08:35:56Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - MissDAG: Causal Discovery in the Presence of Missing Data with
Continuous Additive Noise Models [78.72682320019737]
不完全な観測データから因果発見を行うため,MissDAGと呼ばれる一般的な手法を開発した。
MissDAGは、期待-最大化の枠組みの下で観測の可視部分の期待される可能性を最大化する。
各種因果探索アルゴリズムを組み込んだMissDAGの柔軟性について,広範囲なシミュレーションと実データ実験により検証した。
論文 参考訳(メタデータ) (2022-05-27T09:59:46Z) - Model-based Clustering with Missing Not At Random Data [0.8777702580252754]
我々は,MNARデータを含む,非常に一般的なタイプの欠落データを扱うために設計されたモデルベースのクラスタリングアルゴリズムを提案する。
いくつかのMNARモデルについて議論し、不足の原因は、欠落変数自体の値とクラスメンバーシップの両方に依存する。
MNARzと呼ばれる特定のMNARモデルに注目する。
論文 参考訳(メタデータ) (2021-12-20T09:52:12Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Identifiable Generative Models for Missing Not at Random Data Imputation [13.790820495804567]
多くの計算法は、MNARデータが存在する場合、その欠如を考慮に入れない。
本研究では,MNARにおける生成モデルの識別可能性について検討する。
軽微な仮定の下で識別可能性を保証する実用的な深層生成モデルを提案する。
論文 参考訳(メタデータ) (2021-10-27T18:51:38Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - not-MIWAE: Deep Generative Modelling with Missing not at Random Data [21.977065542645082]
本稿では、欠落したプロセスが欠落したデータに依存している場合に、DLVM(Deep Latent variable Model)を構築し、適合させるアプローチを提案する。
具体的には、深層ニューラルネットワークにより、データから得られる欠損パターンの条件分布を柔軟にモデル化することができる。
欠落したプロセスを明示的にモデル化する様々なデータセットと欠落パターンが有用であることを示す。
論文 参考訳(メタデータ) (2020-06-23T10:06:21Z) - VAEs in the Presence of Missing Data [6.397263087026567]
我々は、欠落したデータを生成する汚職過程の新しい潜伏変数モデルを開発し、対応する抽出可能なエビデンスローバウンド(ELBO)を導出する。
我々のモデルは実装が簡単で、無作為データ(MCAR)と無作為データ(MNAR)の両方を処理でき、高次元入力にスケールし、データ要素が欠落しているか否かの指標変数にVAEエンコーダとデコーダの両方にアクセスできる。
MNISTとSVHNデータセットでは、既存のアプローチと比較して、観測データの辺りのログライクな改善と、データ計算の欠如の改善が示されている。
論文 参考訳(メタデータ) (2020-06-09T14:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。