論文の概要: Causal Inference with Corrupted Data: Measurement Error, Missing Values,
Discretization, and Differential Privacy
- arxiv url: http://arxiv.org/abs/2107.02780v1
- Date: Tue, 6 Jul 2021 17:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 15:16:56.824414
- Title: Causal Inference with Corrupted Data: Measurement Error, Missing Values,
Discretization, and Differential Privacy
- Title(参考訳): 破損したデータによる因果推論:測定誤差、欠落値、離散化、微分プライバシー
- Authors: Anish Agarwal and Rahul Singh
- Abstract要約: 本稿では,データクリーニング,推定,およびデータクリーニング調整された信頼区間による推論のための新しいエンドツーエンド手法を提案する。
我々は、行列補完、統計学習、半パラメトリック統計学に対する漸近的理論的貢献を提供する。
- 参考スコア(独自算出の注目度): 4.921588282642753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Even the most carefully curated economic data sets have variables that are
noisy, missing, discretized, or privatized. The standard workflow for empirical
research involves data cleaning followed by data analysis that typically
ignores the bias and variance consequences of data cleaning. We formulate a
semiparametric model for causal inference with corrupted data to encompass both
data cleaning and data analysis. We propose a new end-to-end procedure for data
cleaning, estimation, and inference with data cleaning-adjusted confidence
intervals. We prove root-n consistency, Gaussian approximation, and
semiparametric efficiency for our estimator of the causal parameter by finite
sample arguments. Our key assumption is that the true covariates are
approximately low rank. In our analysis, we provide nonasymptotic theoretical
contributions to matrix completion, statistical learning, and semiparametric
statistics. We verify the coverage of the data cleaning-adjusted confidence
intervals in simulations.
- Abstract(参考訳): 最も注意深く計算された経済データセットでさえ、ノイズ、欠落、離散化、または民営化の変数を持っている。
経験的研究の標準的なワークフローは、データのクリーニングと、データクリーニングのバイアスと分散結果を無視したデータ分析である。
劣化データを用いた因果推論のための半パラメトリックモデルを定式化し,データクリーニングとデータ解析の両方を包含する。
本稿では,データクリーニング,推定,およびデータクリーニング調整された信頼区間による推論のための新しいエンドツーエンド手法を提案する。
有限サンプル引数による因果パラメータ推定器のルート-n整合性,ガウス近似,半パラメトリック効率を証明した。
我々の重要な仮定は、真の共変量は概して低いランクであるということである。
解析では,行列完全性,統計的学習,半パラメトリック統計量に対する非漸近的理論的貢献を与える。
シミュレーションにおいて,データのクリーニング調整された信頼区間のカバレッジを検証する。
関連論文リスト
- Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning [53.42244686183879]
コンフォーマル予測は、モデルに依存しない、分布のない不確実性定量化を提供する。
しかし、敵が訓練データと校正データを操作した場合の毒殺攻撃では、共形予測は信頼性が低い。
信頼性予測セット (RPS): 汚染下での信頼性保証を証明可能な共形予測セットを構築するための最初の効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:37:11Z) - Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Split Conformal Prediction under Data Contamination [14.23965125128232]
データ汚染環境における分割共形予測の堅牢性について検討する。
構築した集合のカバレッジと効率に及ぼす劣化したデータの影響を定量化する。
本稿では,汚染ロバスト・コンフォーマル予測(Contamination Robust Conformal Prediction)と呼ぶ分類設定の調整を提案する。
論文 参考訳(メタデータ) (2024-07-10T14:33:28Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Differentially Private Linear Regression with Linked Data [3.9325957466009203]
コンピュータ科学の数学的概念である差分プライバシーは、堅牢なプライバシー保証を提供する上昇するツールである。
最近の研究は、個々の統計および機械学習タスクの微分プライベートバージョンの開発に焦点を当てている。
相関データを用いた線形回帰のための2つの微分プライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-01T21:00:19Z) - Conformal Prediction with Missing Values [19.18178194789968]
まず,共形予測の限界カバレッジ保証が,不一致分布のインプットデータに当てはまることを示す。
次に、インプットされたデータに基づいてトレーニングされた普遍的に一貫した量子レグレッションアルゴリズムが、ピンボールリスクに対してベイズ最適であることを示す。
論文 参考訳(メタデータ) (2023-06-05T09:28:03Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。
提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文 参考訳(メタデータ) (2022-10-06T16:52:38Z) - Predictive Data Calibration for Linear Correlation Significance Testing [0.0]
ピアソンの相関係数(PCC)は両方の点で欠落していることが知られている。
機械学習に基づく予測データキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2022-08-15T09:19:06Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。