論文の概要: Causal Inference with Corrupted Data: Measurement Error, Missing Values,
Discretization, and Differential Privacy
- arxiv url: http://arxiv.org/abs/2107.02780v6
- Date: Mon, 12 Feb 2024 16:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 20:31:08.038102
- Title: Causal Inference with Corrupted Data: Measurement Error, Missing Values,
Discretization, and Differential Privacy
- Title(参考訳): 破損したデータによる因果推論:測定誤差、欠落値、離散化、微分プライバシー
- Authors: Anish Agarwal and Rahul Singh
- Abstract要約: 高次元の劣化データを用いて半パラメトリックな因果推論モデルを定式化する。
有限サンプル引数による一貫性とガウス近似を証明する。
我々の分析は、行列補完、統計的学習、および半パラメトリック統計に対する漸近的理論的貢献を提供する。
- 参考スコア(独自算出の注目度): 6.944765747195337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The US Census Bureau will deliberately corrupt data sets derived from the
2020 US Census, enhancing the privacy of respondents while potentially reducing
the precision of economic analysis. To investigate whether this trade-off is
inevitable, we formulate a semiparametric model of causal inference with high
dimensional corrupted data. We propose a procedure for data cleaning,
estimation, and inference with data cleaning-adjusted confidence intervals. We
prove consistency and Gaussian approximation by finite sample arguments, with a
rate of $n^{ 1/2}$ for semiparametric estimands that degrades gracefully for
nonparametric estimands. Our key assumption is that the true covariates are
approximately low rank, which we interpret as approximate repeated measurements
and empirically validate. Our analysis provides nonasymptotic theoretical
contributions to matrix completion, statistical learning, and semiparametric
statistics. Calibrated simulations verify the coverage of our data cleaning
adjusted confidence intervals and demonstrate the relevance of our results for
Census-derived data.
- Abstract(参考訳): 米国国勢調査局は、2020年の国勢調査から得られたデータセットを故意に破壊し、回答者のプライバシーを強化し、経済分析の精度を低下させる可能性がある。
このトレードオフが避けられないかどうかを調べるため、高次元劣化データを用いた半パラメトリックな因果推論モデルを定式化する。
本稿では,データクリーニング調整信頼区間を用いたデータクリーニング,推定,推論手法を提案する。
有限サンプル引数による一貫性とガウス近似を半パラメトリック推定に対して$n^{ 1/2}$で証明し、非パラメトリック推定に対して優雅に分解する。
我々の重要な仮定は、真の共変量は概して低いランクであり、近似的な繰り返し測定と経験的に検証される。
本解析は,行列完全性,統計的学習,半パラメトリック統計量に対する非漸近的理論的貢献を提供する。
校正されたシミュレーションは,データクリーニングによる信頼区間の精度を検証し,国勢調査データに対する結果の妥当性を実証する。
関連論文リスト
- Leveraging Self-Consistency for Data-Efficient Amortized Bayesian
Inference [3.0358713021250083]
本稿では,償却ベイズ推定の効率と精度を向上させる手法を提案する。
我々は,関節モデルの近似表現に基づいて限界確率を推定する。
論文 参考訳(メタデータ) (2023-10-06T17:41:41Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Correcting Underrepresentation and Intersectional Bias for Fair
Classification [55.2480439325792]
偏見バイアスによって劣化したデータから学習する問題について考察し, 正の例を, 一定の数のセンシティブなグループに対して, 異なる未知のレートでフィルタする。
交叉群のメンバーシップが各交叉率を計算不能にするような設定であっても,少数の偏りのないデータを用いてグループワイド・ドロップアウトパラメータを効率的に推定できることが示される。
我々は,この学習と再重み付け過程をカプセル化するアルゴリズムを提案し,高い確率で真の分布に対する仮説のリスクが任意に近いことをPACスタイルの強い保証を提供する。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z) - Sufficient Identification Conditions and Semiparametric Estimation under
Missing Not at Random Mechanisms [4.211128681972148]
統計的に有効な分析を行うことは、MNARデータの存在において困難である。
従来のMNARモデルを2つの方法で一般化したMNARモデルを考える。
そこで本稿では,確率比をパラメータとして,そのようなモデルで符号化された独立性制約をテストする手法を提案する。
論文 参考訳(メタデータ) (2023-06-10T13:46:16Z) - Conformal Prediction with Missing Values [19.18178194789968]
まず,共形予測の限界カバレッジ保証が,不一致分布のインプットデータに当てはまることを示す。
次に、インプットされたデータに基づいてトレーニングされた普遍的に一貫した量子レグレッションアルゴリズムが、ピンボールリスクに対してベイズ最適であることを示す。
論文 参考訳(メタデータ) (2023-06-05T09:28:03Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。
提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文 参考訳(メタデータ) (2022-10-06T16:52:38Z) - Predictive Data Calibration for Linear Correlation Significance Testing [0.0]
ピアソンの相関係数(PCC)は両方の点で欠落していることが知られている。
機械学習に基づく予測データキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2022-08-15T09:19:06Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。