Fugu-MT 論文翻訳(概要): Causal Inference with Corrupted Data: Measurement Error, Missing Values, Discretization, and Differential Privacy

論文の概要: Causal Inference with Corrupted Data: Measurement Error, Missing Values, Discretization, and Differential Privacy

arxiv url: http://arxiv.org/abs/2107.02780v6
Date: Mon, 12 Feb 2024 16:33:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 20:31:08.038102
Title: Causal Inference with Corrupted Data: Measurement Error, Missing Values, Discretization, and Differential Privacy
Title（参考訳）: 破損したデータによる因果推論:測定誤差、欠落値、離散化、微分プライバシー
Authors: Anish Agarwal and Rahul Singh
Abstract要約: 高次元の劣化データを用いて半パラメトリックな因果推論モデルを定式化する。有限サンプル引数による一貫性とガウス近似を証明する。我々の分析は、行列補完、統計的学習、および半パラメトリック統計に対する漸近的理論的貢献を提供する。
参考スコア（独自算出の注目度）: 6.944765747195337
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The US Census Bureau will deliberately corrupt data sets derived from the 2020 US Census, enhancing the privacy of respondents while potentially reducing the precision of economic analysis. To investigate whether this trade-off is inevitable, we formulate a semiparametric model of causal inference with high dimensional corrupted data. We propose a procedure for data cleaning, estimation, and inference with data cleaning-adjusted confidence intervals. We prove consistency and Gaussian approximation by finite sample arguments, with a rate of $n^{ 1/2}$ for semiparametric estimands that degrades gracefully for nonparametric estimands. Our key assumption is that the true covariates are approximately low rank, which we interpret as approximate repeated measurements and empirically validate. Our analysis provides nonasymptotic theoretical contributions to matrix completion, statistical learning, and semiparametric statistics. Calibrated simulations verify the coverage of our data cleaning adjusted confidence intervals and demonstrate the relevance of our results for Census-derived data.
Abstract（参考訳）: 米国国勢調査局は、2020年の国勢調査から得られたデータセットを故意に破壊し、回答者のプライバシーを強化し、経済分析の精度を低下させる可能性がある。このトレードオフが避けられないかどうかを調べるため、高次元劣化データを用いた半パラメトリックな因果推論モデルを定式化する。本稿では,データクリーニング調整信頼区間を用いたデータクリーニング,推定,推論手法を提案する。有限サンプル引数による一貫性とガウス近似を半パラメトリック推定に対して$n^{ 1/2}$で証明し、非パラメトリック推定に対して優雅に分解する。我々の重要な仮定は、真の共変量は概して低いランクであり、近似的な繰り返し測定と経験的に検証される。本解析は,行列完全性,統計的学習,半パラメトリック統計量に対する非漸近的理論的貢献を提供する。校正されたシミュレーションは,データクリーニングによる信頼区間の精度を検証し,国勢調査データに対する結果の妥当性を実証する。

関連論文リスト

Optimal Debiased Inference on Privatized Data via Indirect Estimation and Parametric Bootstrap [12.65121513620053]
民営化されたデータに対する既存のパラメトリックブートストラップの使用は、クランプの効果を無視したり回避したりしていた。本稿では,パラメータ値を連続的に推定するために間接推論手法を提案する。本フレームワークは,信頼区間をよく校正したカバレッジで生成し,正しいI型誤差で仮説テストを行う。
論文参考訳（メタデータ） (2025-07-14T19:12:16Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning [53.42244686183879]
コンフォーマル予測は、モデルに依存しない、分布のない不確実性定量化を提供する。しかし、敵が訓練データと校正データを操作した場合の毒殺攻撃では、共形予測は信頼性が低い。信頼性予測セット (RPS): 汚染下での信頼性保証を証明可能な共形予測セットを構築するための最初の効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-13T15:37:11Z)
Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。我々は多種多様な高次元データにまたがって理論を検証する。
論文参考訳（メタデータ） (2024-08-08T17:27:29Z)
Split Conformal Prediction under Data Contamination [14.23965125128232]
データ汚染環境における分割共形予測の堅牢性について検討する。構築した集合のカバレッジと効率に及ぼす劣化したデータの影響を定量化する。本稿では,汚染ロバスト・コンフォーマル予測(Contamination Robust Conformal Prediction)と呼ぶ分類設定の調整を提案する。
論文参考訳（メタデータ） (2024-07-10T14:33:28Z)
Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文参考訳（メタデータ） (2024-05-19T17:49:33Z)
Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文参考訳（メタデータ） (2023-09-28T13:04:11Z)
Differentially Private Linear Regression with Linked Data [3.9325957466009203]
コンピュータ科学の数学的概念である差分プライバシーは、堅牢なプライバシー保証を提供する上昇するツールである。最近の研究は、個々の統計および機械学習タスクの微分プライベートバージョンの開発に焦点を当てている。相関データを用いた線形回帰のための2つの微分プライベートアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-08-01T21:00:19Z)
Conformal Prediction with Missing Values [19.18178194789968]
まず,共形予測の限界カバレッジ保証が,不一致分布のインプットデータに当てはまることを示す。次に、インプットされたデータに基づいてトレーニングされた普遍的に一貫した量子レグレッションアルゴリズムが、ピンボールリスクに対してベイズ最適であることを示す。
論文参考訳（メタデータ） (2023-06-05T09:28:03Z)
Monotonicity and Double Descent in Uncertainty Estimation with Gaussian Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文参考訳（メタデータ） (2022-10-14T08:09:33Z)
Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文参考訳（メタデータ） (2022-10-06T16:52:38Z)
Predictive Data Calibration for Linear Correlation Significance Testing [0.0]
ピアソンの相関係数(PCC)は両方の点で欠落していることが知られている。機械学習に基づく予測データキャリブレーション手法を提案する。
論文参考訳（メタデータ） (2022-08-15T09:19:06Z)
Evaluating representations by the complexity of learning low-loss predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文参考訳（メタデータ） (2020-09-15T22:06:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。