論文の概要: Causal Inference with Corrupted Data: Measurement Error, Missing Values,
Discretization, and Differential Privacy
- arxiv url: http://arxiv.org/abs/2107.02780v1
- Date: Tue, 6 Jul 2021 17:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 15:16:56.824414
- Title: Causal Inference with Corrupted Data: Measurement Error, Missing Values,
Discretization, and Differential Privacy
- Title(参考訳): 破損したデータによる因果推論:測定誤差、欠落値、離散化、微分プライバシー
- Authors: Anish Agarwal and Rahul Singh
- Abstract要約: 本稿では,データクリーニング,推定,およびデータクリーニング調整された信頼区間による推論のための新しいエンドツーエンド手法を提案する。
我々は、行列補完、統計学習、半パラメトリック統計学に対する漸近的理論的貢献を提供する。
- 参考スコア(独自算出の注目度): 4.921588282642753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Even the most carefully curated economic data sets have variables that are
noisy, missing, discretized, or privatized. The standard workflow for empirical
research involves data cleaning followed by data analysis that typically
ignores the bias and variance consequences of data cleaning. We formulate a
semiparametric model for causal inference with corrupted data to encompass both
data cleaning and data analysis. We propose a new end-to-end procedure for data
cleaning, estimation, and inference with data cleaning-adjusted confidence
intervals. We prove root-n consistency, Gaussian approximation, and
semiparametric efficiency for our estimator of the causal parameter by finite
sample arguments. Our key assumption is that the true covariates are
approximately low rank. In our analysis, we provide nonasymptotic theoretical
contributions to matrix completion, statistical learning, and semiparametric
statistics. We verify the coverage of the data cleaning-adjusted confidence
intervals in simulations.
- Abstract(参考訳): 最も注意深く計算された経済データセットでさえ、ノイズ、欠落、離散化、または民営化の変数を持っている。
経験的研究の標準的なワークフローは、データのクリーニングと、データクリーニングのバイアスと分散結果を無視したデータ分析である。
劣化データを用いた因果推論のための半パラメトリックモデルを定式化し,データクリーニングとデータ解析の両方を包含する。
本稿では,データクリーニング,推定,およびデータクリーニング調整された信頼区間による推論のための新しいエンドツーエンド手法を提案する。
有限サンプル引数による因果パラメータ推定器のルート-n整合性,ガウス近似,半パラメトリック効率を証明した。
我々の重要な仮定は、真の共変量は概して低いランクであるということである。
解析では,行列完全性,統計的学習,半パラメトリック統計量に対する非漸近的理論的貢献を与える。
シミュレーションにおいて,データのクリーニング調整された信頼区間のカバレッジを検証する。
関連論文リスト
- Leveraging Self-Consistency for Data-Efficient Amortized Bayesian
Inference [3.0358713021250083]
本稿では,償却ベイズ推定の効率と精度を向上させる手法を提案する。
我々は,関節モデルの近似表現に基づいて限界確率を推定する。
論文 参考訳(メタデータ) (2023-10-06T17:41:41Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Correcting Underrepresentation and Intersectional Bias for Fair
Classification [55.2480439325792]
偏見バイアスによって劣化したデータから学習する問題について考察し, 正の例を, 一定の数のセンシティブなグループに対して, 異なる未知のレートでフィルタする。
交叉群のメンバーシップが各交叉率を計算不能にするような設定であっても,少数の偏りのないデータを用いてグループワイド・ドロップアウトパラメータを効率的に推定できることが示される。
我々は,この学習と再重み付け過程をカプセル化するアルゴリズムを提案し,高い確率で真の分布に対する仮説のリスクが任意に近いことをPACスタイルの強い保証を提供する。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z) - Sufficient Identification Conditions and Semiparametric Estimation under
Missing Not at Random Mechanisms [4.211128681972148]
統計的に有効な分析を行うことは、MNARデータの存在において困難である。
従来のMNARモデルを2つの方法で一般化したMNARモデルを考える。
そこで本稿では,確率比をパラメータとして,そのようなモデルで符号化された独立性制約をテストする手法を提案する。
論文 参考訳(メタデータ) (2023-06-10T13:46:16Z) - Conformal Prediction with Missing Values [19.18178194789968]
まず,共形予測の限界カバレッジ保証が,不一致分布のインプットデータに当てはまることを示す。
次に、インプットされたデータに基づいてトレーニングされた普遍的に一貫した量子レグレッションアルゴリズムが、ピンボールリスクに対してベイズ最適であることを示す。
論文 参考訳(メタデータ) (2023-06-05T09:28:03Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。
提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文 参考訳(メタデータ) (2022-10-06T16:52:38Z) - Predictive Data Calibration for Linear Correlation Significance Testing [0.0]
ピアソンの相関係数(PCC)は両方の点で欠落していることが知られている。
機械学習に基づく予測データキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2022-08-15T09:19:06Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。