論文の概要: Gaussian Copula Models for Nonignorable Missing Data Using Auxiliary Marginal Quantiles
- arxiv url: http://arxiv.org/abs/2406.03463v2
- Date: Sat, 16 Nov 2024 19:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:27:44.570232
- Title: Gaussian Copula Models for Nonignorable Missing Data Using Auxiliary Marginal Quantiles
- Title(参考訳): 補助原子量を用いた無無視欠測データに対するガウスコピュラモデル
- Authors: Joseph Feldman, Jerome P. Reiter, Daniel R. Kowal,
- Abstract要約: 本稿では,非無視的欠落データのモデル化と計算手法を提案する。
我々は,ノースカロライナの170,000人の学生を対象に,鉛暴露とエンドツーエンドテストスコアの関係を解析するためにモデルを適用した。
- 参考スコア(独自算出の注目度): 2.867517731896504
- License:
- Abstract: We present an approach for modeling and imputation of nonignorable missing data. Our approach uses Bayesian data integration to combine (1) a Gaussian copula model for all study variables and missingness indicators, which allows arbitrary marginal distributions, nonignorable missingess, and other dependencies, and (2) auxiliary information in the form of marginal quantiles for some study variables. We prove that, remarkably, one only needs a small set of accurately-specified quantiles to estimate the copula correlation consistently. The remaining marginal distribution functions are inferred nonparametrically and jointly with the copula parameters using an efficient MCMC algorithm. We also characterize the (additive) nonignorable missingness mechanism implied by the copula model. Simulations confirm the effectiveness of this approach for multivariate imputation with nonignorable missing data. We apply the model to analyze associations between lead exposure and end-of-grade test scores for 170,000 North Carolina students. Lead exposure has nonignorable missingness: children with higher exposure are more likely to be measured. We elicit marginal quantiles for lead exposure using statistics provided by the Centers for Disease Control and Prevention. Multiple imputation inferences under our model support stronger, more adverse associations between lead exposure and educational outcomes relative to complete case and missing-at-random analyses.
- Abstract(参考訳): 本稿では,非無視的欠落データのモデル化と計算手法を提案する。
提案手法では,(1)各研究変数に対するガウス的コプラモデルと,(2)各研究変数に対する有意な限界分布,非無視的欠落,その他の依存関係を許容し,(2)各研究変数に対する有意な量子化の形での補助的情報とを組み合わせ,ベイズ的データ統合を利用する。
驚くべきことに、コプラ相関を連続的に推定するためには、正確に特定された小セットの量子化しか必要としない。
残りの限界分布関数は、効率的なMCMCアルゴリズムを用いて非パラメトリックおよびコプラパラメータと共同で推論される。
また,コプラモデルによってもたらされる(付加的な)無視不能機構を特徴付ける。
シミュレーションにより,無矛盾データを用いた多変量計算における本手法の有効性が検証された。
我々は,ノースカロライナの170,000人の学生を対象に,鉛暴露とエンドツーエンドテストスコアの関係を解析するためにモデルを適用した。
鉛曝露には無視できない欠陥があり、被曝率が高い子供は測定される傾向が強い。
本研究は, 疾病予防管理センターの統計データを用いて, 鉛被曝の限界量子化を導出する。
本モデルに基づく複数のインパルス推論は, 完全症例に対する鉛暴露と教育成績とのより強い, より有害な関連性を支持する。
関連論文リスト
- Double Machine Learning meets Panel Data -- Promises, Pitfalls, and Potential Solutions [0.0]
機械学習(ML)アルゴリズムを用いた因果効果の推定は、適切なフレームワークで使用すれば、機能的なフォーム仮定を緩和するのに役立ちます。
我々は、観測されていない異種性の存在下で、パネルデータに機械学習(DML)を適用する方法を示す。
また、観測された共同設立者に対する観測されていない異種性の影響が、ほとんどの代替手法の性能に重要な役割を担っていることも示している。
論文 参考訳(メタデータ) (2024-09-02T13:59:54Z) - Bayesian Federated Inference for regression models based on non-shared multicenter data sets from heterogeneous populations [0.0]
回帰モデルでは、サンプルサイズは予測器の数に対して十分な大きさでなければならない。
異なる(医療)センターで収集された異なるデータセットからデータをポーリングすることはこの問題を軽減するが、プライバシー規制やロジスティックな問題のためにしばしば実現不可能である。
別の方法は、センター内のローカルデータを別々に分析し、統計的推測結果とベイズ連邦推論(BFI)手法を組み合わせることである。
このアプローチの目的は、組み合わせたデータに対して統計的解析を行った場合、何を発見したのかを、別々の中心における推論結果から計算することである。
論文 参考訳(メタデータ) (2024-02-05T11:10:27Z) - Sufficient Identification Conditions and Semiparametric Estimation under
Missing Not at Random Mechanisms [4.211128681972148]
統計的に有効な分析を行うことは、MNARデータの存在において困難である。
従来のMNARモデルを2つの方法で一般化したMNARモデルを考える。
そこで本稿では,確率比をパラメータとして,そのようなモデルで符号化された独立性制約をテストする手法を提案する。
論文 参考訳(メタデータ) (2023-06-10T13:46:16Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - Nonparametric Identifiability of Causal Representations from Unknown
Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。
我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文 参考訳(メタデータ) (2023-06-01T10:51:58Z) - Lung Cancer Risk Estimation with Incomplete Data: A Joint Missing
Imputation Perspective [5.64530854079352]
マルチモーダルデータの連成分布をモデル化することで、欠落データの計算に対処する。
本稿では, PBiGAN を用いた新しい条件付き PBiGAN (C-PBiGAN) 法を提案する。
C-PBiGANは, 肺がんのリスク評価において, 代表的計算法と比較して有意に改善した。
論文 参考訳(メタデータ) (2021-07-25T20:15:16Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z) - A Hamiltonian Monte Carlo Model for Imputation and Augmentation of
Healthcare Data [0.6719751155411076]
変数や質問のデータが収集されないか利用できないため、ほとんどすべての臨床研究に不足する値が存在します。
既存のモデルは通常、プライバシの懸念を考慮せず、複数の機能にまたがる固有の相関を利用していない。
本研究では, 欠落値のインプットと高次元医療データへの付加的サンプル生成に対するベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-03T11:57:42Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。