論文の概要: Missing At Random as Covariate Shift: Correcting Bias in Iterative Imputation
- arxiv url: http://arxiv.org/abs/2602.06713v1
- Date: Fri, 06 Feb 2026 14:02:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.416586
- Title: Missing At Random as Covariate Shift: Correcting Bias in Iterative Imputation
- Title(参考訳): 共変量シフトとしてのランダムの欠如:反復的インプットにおけるバイアスの修正
- Authors: Luke Shannon, Song Liu, Katarzyna Reluga,
- Abstract要約: リスク最小化問題として、欠落データ計算を定式化する。
誘導分布バイアスを補正する重要な重みを理論的に有効に導出する。
本稿では,重み付けと計算量モデルの両方を共同で推定する新しい計算アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.51520342433892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate imputation of missing data is critical to downstream machine learning performance. We formulate missing data imputation as a risk minimisation problem, which highlights a covariate shift between the observed and unobserved data distributions. This covariate shift induced bias is not accounted for by popular imputation methods and leads to suboptimal performance. In this paper, we derive theoretically valid importance weights that correct for the induced distributional bias. Furthermore, we propose a novel imputation algorithm that jointly estimates both the importance weights and imputation models, enabling bias correction throughout the imputation process. Empirical results across benchmark datasets show reductions in root mean squared error and Wasserstein distance of up to 7% and 20%, respectively, compared to otherwise identical unweighted methods.
- Abstract(参考訳): ダウンストリーム機械学習のパフォーマンスには、欠落したデータの正確な計算が不可欠だ。
リスク最小化問題としてデータ計算の欠如を定式化し、観測されたデータ分布と観測されていないデータ分布の共変シフトを強調する。
この共変量シフト誘起バイアスは、一般的な計算法によって説明されず、最適以下の性能をもたらす。
本稿では, 誘導分布バイアスを補正する理論的に有効な重み付けを導出する。
さらに,重み付けモデルと重み付けモデルの両方を共同で推定し,計算過程を通じてバイアス補正を可能にする新しい計算アルゴリズムを提案する。
ベンチマークデータセットによる実験結果から、ルート平均二乗誤差とワッサースタイン距離の最大7%と20%が減少していることがわかった。
関連論文リスト
- A Distributionally-Robust Framework for Nuisance in Causal Effect Estimation [1.3053649021965603]
因果推論では、治療群と対照群の間のバランスの取れた分布のモデルを評価する必要がある。
最も一般的な統計手法は、逆確率重み付け(IPW)によるこの分布シフトに対処するものである。
誤差一般化を分解してこれらの問題 - 正当性あいまいさと統計的不安定さ - を分離し, 対向損失関数を通して対処する。
論文 参考訳(メタデータ) (2025-05-23T10:34:28Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Continuous Treatment Effects with Surrogate Outcomes [12.548638259932915]
持続的治療効果の予測におけるサロゲートの役割について検討した。
そこで本研究では,サロゲートを効率的に分析に組み込む2つの頑健な手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T20:50:18Z) - Distributed Semi-Supervised Sparse Statistical Inference [6.685997976921953]
縮退推定器は高次元モデルパラメータの統計的推測において重要なツールである。
従来の手法では、すべてのマシンで偏りのある推定器を計算する必要がある。
ラベル付きデータと非ラベル付きデータを統合した効率的なマルチラウンド分散脱バイアス推定器を開発した。
論文 参考訳(メタデータ) (2023-06-17T17:30:43Z) - Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence
Embedding [51.48582649050054]
符号化文の特徴間の相関関係を解消する表現正規化手法を提案する。
またNystromカーネル近似法であるKernel-Whiteningを提案する。
実験により,Kernel-Whiteningは分布内精度を維持しつつ,分布外データセット上でのBERTの性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-10-14T05:56:38Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - To Impute or not to Impute? -- Missing Data in Treatment Effect
Estimation [84.76186111434818]
我々は,MCM(Mixed Con founded missingness)と呼ばれる新しい欠損機構を同定し,ある欠損度が治療選択を判断し,他の欠損度が治療選択によって決定されることを示した。
本研究は,全てのデータを因果的に入力すると,不偏推定を行うために必要な情報を効果的に除去するので,処理効果のモデルが貧弱になることを示す。
私たちのソリューションは選択的計算であり、CMMからの洞察を使って、どの変数をインプットすべきで、どの変数をインプットすべきでないかを正確に知らせる。
論文 参考訳(メタデータ) (2022-02-04T12:08:31Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Matrix Completion with Quantified Uncertainty through Low Rank Gaussian
Copula [30.84155327760468]
本稿では,不確かさを定量化した値計算の欠如に対する枠組みを提案する。
モデルに適合するために必要な時間は、データセット内の行数や列数と線形にスケールする。
実験結果から,本手法は様々な種類のデータに対して最先端の計算精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-06-18T19:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。