論文の概要: Gaussian Copula Models for Nonignorable Missing Data Using Auxiliary Marginal Quantiles
- arxiv url: http://arxiv.org/abs/2406.03463v1
- Date: Wed, 5 Jun 2024 17:11:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 17:02:29.839168
- Title: Gaussian Copula Models for Nonignorable Missing Data Using Auxiliary Marginal Quantiles
- Title(参考訳): 補助原子量を用いた無無視欠測データに対するガウスコピュラモデル
- Authors: Joseph Feldman, Jerome P. Reiter, Daniel R. Kowal,
- Abstract要約: 我々は,計算効率のよい推定・計算アルゴリズムを開発した。
本モデルを用いて,ノースカロライナの170,000人の学生を対象に,鉛暴露レベルとエンドツーエンドテストスコアの関係を分析した。
- 参考スコア(独自算出の注目度): 2.867517731896504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an approach for modeling and imputation of nonignorable missing data under Gaussian copulas. The analyst posits a set of quantiles of the marginal distributions of the study variables, for example, reflecting information from external data sources or elicited expert opinion. When these quantiles are accurately specified, we prove it is possible to consistently estimate the copula correlation and perform multiple imputation in the presence of nonignorable missing data. We develop algorithms for estimation and imputation that are computationally efficient, which we evaluate in simulation studies of multiple imputation inferences. We apply the model to analyze associations between lead exposure levels and end-of-grade test scores for 170,000 students in North Carolina. These measurements are not missing at random, as children deemed at-risk for high lead exposure are more likely to be measured. We construct plausible marginal quantiles for lead exposure using national statistics provided by the Centers for Disease Control and Prevention. Complete cases and missing at random analyses appear to underestimate the relationships between certain variables and end-of-grade test scores, while multiple imputation inferences under our model support stronger adverse associations between lead exposure and educational outcomes.
- Abstract(参考訳): 本稿では,ガウスコプラの下での非無視的欠落データのモデル化と計算手法を提案する。
アナリストは、例えば、外部データソースからの情報を反映したり、専門家の意見を引き出すなど、研究変数の限界分布の量子化のセットを仮定する。
これらの量子が正確に特定されると、コプラ相関を一貫して推定し、無視できないデータの存在下で複数の計算を行うことができることを示す。
本研究では,計算効率のよい計算アルゴリズムを開発し,複数のインプット推論のシミュレーション研究で評価する。
本モデルを用いて,ノースカロライナの170,000人の学生を対象に,鉛暴露レベルとエンドツーエンドテストスコアの関係を分析した。
これらの測定値が無作為に失われることはなく、高鉛曝露の危険と判断される子供たちは、より多く測定される。
本研究は, 疾病予防管理センターの全国統計データを用いて, 鉛曝露用可塑性辺縁量計を構築した。
完全例と無作為分析の欠如は,特定の変数とエンドツーエンドテストスコアの関係を過小評価しているように思われる。
関連論文リスト
- Double Machine Learning meets Panel Data -- Promises, Pitfalls, and Potential Solutions [0.0]
機械学習(ML)アルゴリズムを用いた因果効果の推定は、適切なフレームワークで使用すれば、機能的なフォーム仮定を緩和するのに役立ちます。
我々は、観測されていない異種性の存在下で、パネルデータに機械学習(DML)を適用する方法を示す。
また、観測された共同設立者に対する観測されていない異種性の影響が、ほとんどの代替手法の性能に重要な役割を担っていることも示している。
論文 参考訳(メタデータ) (2024-09-02T13:59:54Z) - Bayesian Federated Inference for regression models based on non-shared multicenter data sets from heterogeneous populations [0.0]
回帰モデルでは、サンプルサイズは予測器の数に対して十分な大きさでなければならない。
異なる(医療)センターで収集された異なるデータセットからデータをポーリングすることはこの問題を軽減するが、プライバシー規制やロジスティックな問題のためにしばしば実現不可能である。
別の方法は、センター内のローカルデータを別々に分析し、統計的推測結果とベイズ連邦推論(BFI)手法を組み合わせることである。
このアプローチの目的は、組み合わせたデータに対して統計的解析を行った場合、何を発見したのかを、別々の中心における推論結果から計算することである。
論文 参考訳(メタデータ) (2024-02-05T11:10:27Z) - Sufficient Identification Conditions and Semiparametric Estimation under
Missing Not at Random Mechanisms [4.211128681972148]
統計的に有効な分析を行うことは、MNARデータの存在において困難である。
従来のMNARモデルを2つの方法で一般化したMNARモデルを考える。
そこで本稿では,確率比をパラメータとして,そのようなモデルで符号化された独立性制約をテストする手法を提案する。
論文 参考訳(メタデータ) (2023-06-10T13:46:16Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - Nonparametric Identifiability of Causal Representations from Unknown
Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。
我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文 参考訳(メタデータ) (2023-06-01T10:51:58Z) - Lung Cancer Risk Estimation with Incomplete Data: A Joint Missing
Imputation Perspective [5.64530854079352]
マルチモーダルデータの連成分布をモデル化することで、欠落データの計算に対処する。
本稿では, PBiGAN を用いた新しい条件付き PBiGAN (C-PBiGAN) 法を提案する。
C-PBiGANは, 肺がんのリスク評価において, 代表的計算法と比較して有意に改善した。
論文 参考訳(メタデータ) (2021-07-25T20:15:16Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z) - A Hamiltonian Monte Carlo Model for Imputation and Augmentation of
Healthcare Data [0.6719751155411076]
変数や質問のデータが収集されないか利用できないため、ほとんどすべての臨床研究に不足する値が存在します。
既存のモデルは通常、プライバシの懸念を考慮せず、複数の機能にまたがる固有の相関を利用していない。
本研究では, 欠落値のインプットと高次元医療データへの付加的サンプル生成に対するベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-03T11:57:42Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。