論文の概要: Causal Inference with Corrupted Data: Measurement Error, Missing Values,
Discretization, and Differential Privacy
- arxiv url: http://arxiv.org/abs/2107.02780v6
- Date: Mon, 12 Feb 2024 16:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 20:31:08.038102
- Title: Causal Inference with Corrupted Data: Measurement Error, Missing Values,
Discretization, and Differential Privacy
- Title(参考訳): 破損したデータによる因果推論:測定誤差、欠落値、離散化、微分プライバシー
- Authors: Anish Agarwal and Rahul Singh
- Abstract要約: 高次元の劣化データを用いて半パラメトリックな因果推論モデルを定式化する。
有限サンプル引数による一貫性とガウス近似を証明する。
我々の分析は、行列補完、統計的学習、および半パラメトリック統計に対する漸近的理論的貢献を提供する。
- 参考スコア(独自算出の注目度): 6.944765747195337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The US Census Bureau will deliberately corrupt data sets derived from the
2020 US Census, enhancing the privacy of respondents while potentially reducing
the precision of economic analysis. To investigate whether this trade-off is
inevitable, we formulate a semiparametric model of causal inference with high
dimensional corrupted data. We propose a procedure for data cleaning,
estimation, and inference with data cleaning-adjusted confidence intervals. We
prove consistency and Gaussian approximation by finite sample arguments, with a
rate of $n^{ 1/2}$ for semiparametric estimands that degrades gracefully for
nonparametric estimands. Our key assumption is that the true covariates are
approximately low rank, which we interpret as approximate repeated measurements
and empirically validate. Our analysis provides nonasymptotic theoretical
contributions to matrix completion, statistical learning, and semiparametric
statistics. Calibrated simulations verify the coverage of our data cleaning
adjusted confidence intervals and demonstrate the relevance of our results for
Census-derived data.
- Abstract(参考訳): 米国国勢調査局は、2020年の国勢調査から得られたデータセットを故意に破壊し、回答者のプライバシーを強化し、経済分析の精度を低下させる可能性がある。
このトレードオフが避けられないかどうかを調べるため、高次元劣化データを用いた半パラメトリックな因果推論モデルを定式化する。
本稿では,データクリーニング調整信頼区間を用いたデータクリーニング,推定,推論手法を提案する。
有限サンプル引数による一貫性とガウス近似を半パラメトリック推定に対して$n^{ 1/2}$で証明し、非パラメトリック推定に対して優雅に分解する。
我々の重要な仮定は、真の共変量は概して低いランクであり、近似的な繰り返し測定と経験的に検証される。
本解析は,行列完全性,統計的学習,半パラメトリック統計量に対する非漸近的理論的貢献を提供する。
校正されたシミュレーションは,データクリーニングによる信頼区間の精度を検証し,国勢調査データに対する結果の妥当性を実証する。
関連論文リスト
- Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning [53.42244686183879]
コンフォーマル予測は、モデルに依存しない、分布のない不確実性定量化を提供する。
しかし、敵が訓練データと校正データを操作した場合の毒殺攻撃では、共形予測は信頼性が低い。
信頼性予測セット (RPS): 汚染下での信頼性保証を証明可能な共形予測セットを構築するための最初の効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:37:11Z) - Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Split Conformal Prediction under Data Contamination [14.23965125128232]
データ汚染環境における分割共形予測の堅牢性について検討する。
構築した集合のカバレッジと効率に及ぼす劣化したデータの影響を定量化する。
本稿では,汚染ロバスト・コンフォーマル予測(Contamination Robust Conformal Prediction)と呼ぶ分類設定の調整を提案する。
論文 参考訳(メタデータ) (2024-07-10T14:33:28Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Differentially Private Linear Regression with Linked Data [3.9325957466009203]
コンピュータ科学の数学的概念である差分プライバシーは、堅牢なプライバシー保証を提供する上昇するツールである。
最近の研究は、個々の統計および機械学習タスクの微分プライベートバージョンの開発に焦点を当てている。
相関データを用いた線形回帰のための2つの微分プライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-01T21:00:19Z) - Conformal Prediction with Missing Values [19.18178194789968]
まず,共形予測の限界カバレッジ保証が,不一致分布のインプットデータに当てはまることを示す。
次に、インプットされたデータに基づいてトレーニングされた普遍的に一貫した量子レグレッションアルゴリズムが、ピンボールリスクに対してベイズ最適であることを示す。
論文 参考訳(メタデータ) (2023-06-05T09:28:03Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。
提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文 参考訳(メタデータ) (2022-10-06T16:52:38Z) - Predictive Data Calibration for Linear Correlation Significance Testing [0.0]
ピアソンの相関係数(PCC)は両方の点で欠落していることが知られている。
機械学習に基づく予測データキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2022-08-15T09:19:06Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。