論文の概要: Gaussian Copula Models for Nonignorable Missing Data Using Auxiliary Marginal Quantiles
- arxiv url: http://arxiv.org/abs/2406.03463v2
- Date: Sat, 16 Nov 2024 19:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:27:44.570232
- Title: Gaussian Copula Models for Nonignorable Missing Data Using Auxiliary Marginal Quantiles
- Title(参考訳): 補助原子量を用いた無無視欠測データに対するガウスコピュラモデル
- Authors: Joseph Feldman, Jerome P. Reiter, Daniel R. Kowal,
- Abstract要約: 本稿では,非無視的欠落データのモデル化と計算手法を提案する。
我々は,ノースカロライナの170,000人の学生を対象に,鉛暴露とエンドツーエンドテストスコアの関係を解析するためにモデルを適用した。
- 参考スコア(独自算出の注目度): 2.867517731896504
- License:
- Abstract: We present an approach for modeling and imputation of nonignorable missing data. Our approach uses Bayesian data integration to combine (1) a Gaussian copula model for all study variables and missingness indicators, which allows arbitrary marginal distributions, nonignorable missingess, and other dependencies, and (2) auxiliary information in the form of marginal quantiles for some study variables. We prove that, remarkably, one only needs a small set of accurately-specified quantiles to estimate the copula correlation consistently. The remaining marginal distribution functions are inferred nonparametrically and jointly with the copula parameters using an efficient MCMC algorithm. We also characterize the (additive) nonignorable missingness mechanism implied by the copula model. Simulations confirm the effectiveness of this approach for multivariate imputation with nonignorable missing data. We apply the model to analyze associations between lead exposure and end-of-grade test scores for 170,000 North Carolina students. Lead exposure has nonignorable missingness: children with higher exposure are more likely to be measured. We elicit marginal quantiles for lead exposure using statistics provided by the Centers for Disease Control and Prevention. Multiple imputation inferences under our model support stronger, more adverse associations between lead exposure and educational outcomes relative to complete case and missing-at-random analyses.
- Abstract(参考訳): 本稿では,非無視的欠落データのモデル化と計算手法を提案する。
提案手法では,(1)各研究変数に対するガウス的コプラモデルと,(2)各研究変数に対する有意な限界分布,非無視的欠落,その他の依存関係を許容し,(2)各研究変数に対する有意な量子化の形での補助的情報とを組み合わせ,ベイズ的データ統合を利用する。
驚くべきことに、コプラ相関を連続的に推定するためには、正確に特定された小セットの量子化しか必要としない。
残りの限界分布関数は、効率的なMCMCアルゴリズムを用いて非パラメトリックおよびコプラパラメータと共同で推論される。
また,コプラモデルによってもたらされる(付加的な)無視不能機構を特徴付ける。
シミュレーションにより,無矛盾データを用いた多変量計算における本手法の有効性が検証された。
我々は,ノースカロライナの170,000人の学生を対象に,鉛暴露とエンドツーエンドテストスコアの関係を解析するためにモデルを適用した。
鉛曝露には無視できない欠陥があり、被曝率が高い子供は測定される傾向が強い。
本研究は, 疾病予防管理センターの統計データを用いて, 鉛被曝の限界量子化を導出する。
本モデルに基づく複数のインパルス推論は, 完全症例に対する鉛暴露と教育成績とのより強い, より有害な関連性を支持する。
関連論文リスト
- Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Bayesian Federated Inference for regression models based on non-shared multicenter data sets from heterogeneous populations [0.0]
回帰モデルでは、サンプルサイズは予測器の数に対して十分な大きさでなければならない。
異なる(医療)センターで収集された異なるデータセットからデータをポーリングすることはこの問題を軽減するが、プライバシー規制やロジスティックな問題のためにしばしば実現不可能である。
別の方法は、センター内のローカルデータを別々に分析し、統計的推測結果とベイズ連邦推論(BFI)手法を組み合わせることである。
このアプローチの目的は、組み合わせたデータに対して統計的解析を行った場合、何を発見したのかを、別々の中心における推論結果から計算することである。
論文 参考訳(メタデータ) (2024-02-05T11:10:27Z) - Bayesian Quantile Regression with Subset Selection: A Posterior Summarization Perspective [0.0]
量子レグレッション(quantile regression)は疫学研究において、異なる露光が健康や生活結果の分布の特定のパーセンタイルにどのように影響するかを推測することに関心を持つ強力なツールである。
既存の方法では、興味のある各量に対して個別に条件量子を推定するか、半パラメトリックモデルまたは非パラメトリックモデルを用いて条件分布全体を推定する。
本研究では,線形定量推定,不確実性定量化,およびベイズ決定解析の観点からのサブセット選択の基本的問題を提起する。
提案手法では,量子に焦点をあてた2乗誤差損失を導入し,効率的な閉形式計算を実現し,ワッサーシュタインに基づく密度推定との密接な関係を維持する。
論文 参考訳(メタデータ) (2023-11-03T17:19:31Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Potential sources of dataset bias complicate investigation of
underdiagnosis by machine learning algorithms [20.50071537200745]
Seyed-Kalantariらは、3つの胸部X線データセットで訓練されたモデルが偽陽性率の差をもたらすことを発見した。
この研究は、これらのモデルが体系的な下垂体手術を展示し、潜在的に増幅していると結論付けている。
論文 参考訳(メタデータ) (2022-01-19T20:51:38Z) - Statistical quantification of confounding bias in predictive modelling [0.0]
未確立モデルと完全構築モデルのnull仮説を探索する部分的および完全共創テストを提案する。
このテストは、非正規および非線形依存の予測であっても、I型エラーと高い統計的パワーに対して厳格な制御を提供する。
論文 参考訳(メタデータ) (2021-11-01T10:35:24Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z) - On Disentangled Representations Learned From Correlated Data [59.41587388303554]
相関データに対する最も顕著な絡み合うアプローチの挙動を解析することにより、現実のシナリオにギャップを埋める。
本研究では,データセットの体系的相関が学習され,潜在表現に反映されていることを示す。
また、トレーニング中の弱い監督や、少数のラベルで事前訓練されたモデルを修正することで、これらの潜伏相関を解消する方法を実証する。
論文 参考訳(メタデータ) (2020-06-14T12:47:34Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。