論文の概要: Debiasing Machine Learning Predictions for Causal Inference Without Additional Ground Truth Data: "One Map, Many Trials" in Satellite-Driven Poverty Analysis
- arxiv url: http://arxiv.org/abs/2508.01341v1
- Date: Sat, 02 Aug 2025 12:26:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.834086
- Title: Debiasing Machine Learning Predictions for Causal Inference Without Additional Ground Truth Data: "One Map, Many Trials" in Satellite-Driven Poverty Analysis
- Title(参考訳): 余分な真実データを持たない因果推論のためのデバイアスング機械学習予測:衛星による貧困分析における「一つの地図、多くの試行」
- Authors: Markus Pettersson, Connor T. Jerzak, Adel Daoud,
- Abstract要約: 新たに収集したラベル付きデータに頼らずに予測バイアスを大幅に低減する2つの補正手法を導入・評価する。
提案手法は, (a) パイプラインのトレーニングや (b) 追加ラベル付きデータに対する調整を必要とする既存のアプローチに適合するか,あるいは性能を向上することを示した。
- 参考スコア(独自算出の注目度): 3.4137115855910762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models trained on Earth observation data, such as satellite imagery, have demonstrated significant promise in predicting household-level wealth indices, enabling the creation of high-resolution wealth maps that can be leveraged across multiple causal trials. However, because standard training objectives prioritize overall predictive accuracy, these predictions inherently suffer from shrinkage toward the mean, leading to attenuated estimates of causal treatment effects and limiting their utility in policy. Existing debiasing methods, such as Prediction-Powered Inference, can handle this attenuation bias but require additional fresh ground-truth data at the downstream stage of causal inference, which restricts their applicability in data-scarce environments. Here, we introduce and evaluate two correction methods -- linear calibration correction and Tweedie's correction -- that substantially reduce prediction bias without relying on newly collected labeled data. Linear calibration corrects bias through a straightforward linear transformation derived from held-out calibration data, whereas Tweedie's correction leverages empirical Bayes principles to directly address shrinkage-induced biases by exploiting score functions derived from the model's learning patterns. Through analytical exercises and experiments using Demographic and Health Survey data, we demonstrate that the proposed methods meet or outperform existing approaches that either require (a) adjustments to training pipelines or (b) additional labeled data. These approaches may represent a promising avenue for improving the reliability of causal inference when direct outcome measures are limited or unavailable, enabling a "one map, many trials" paradigm where a single upstream data creation team produces predictions usable by many downstream teams across diverse ML pipelines.
- Abstract(参考訳): 衛星画像などの地球観測データに基づいてトレーニングされた機械学習モデルは、家庭レベルの富の指標を予測する上で大きな可能性を示しており、複数の因果試験で活用できる高解像度の富の地図の作成を可能にしている。
しかし、標準的な訓練目標が全体的な予測精度を優先するため、これらの予測は本質的に平均に対する縮小に悩まされ、因果治療効果の見積もりが減少し、政策における実用性が制限される。
予測パワー推論のような既存のデバイアス法は、この減衰バイアスを処理できるが、因果推論の下流の段階で新たな地下構造データを必要とするため、データスカース環境での適用性が制限される。
本稿では,線形キャリブレーション補正とツイーディ補正という2つの補正手法を導入,評価する。
線形キャリブレーションは、保持されたキャリブレーションデータから得られる直線変換によってバイアスを補正する一方、Tweedieの補正は、経験的ベイズ原理を活用して、モデルの学習パターンから得られるスコア関数を利用して、縮退誘起バイアスに直接対処する。
デモグラフィック・ヘルスサーベイデータを用いた分析演習と実験を通じて,提案手法が既存のアプローチに適合するか,あるいは上回っていることを実証した。
(a)パイプラインの訓練や調整
b)追加のラベル付きデータ。
これらのアプローチは、直接的な結果測定が制限されたり、利用できない場合の因果推論の信頼性を向上させるための、有望な方法である可能性がある。
関連論文リスト
- A Moment-Based Generalization to Post-Prediction Inference [2.089112028396727]
人工知能(AI)と機械学習(ML)は、下流の分析のためのデータを生成するためにますます利用されている。
これらの予測を真に観察すると、偏見のある結果と誤った推測につながる可能性がある。
Wangらは、AI/ML予測と観測結果の関係をモデル化して推論を校正する、予測後推論手法を提案した。
論文 参考訳(メタデータ) (2025-07-12T02:33:45Z) - Aerial Image Classification in Scarce and Unconstrained Environments via Conformal Prediction [2.77390041716769]
本稿では,難易度の高い航空画像データセット上での共形予測手法の総合的な実験的検討を行う。
本研究では,データスカースと高度に可変な実環境設定の複雑さについて考察する。
その結果, 比較的小さなラベル付きサンプルと単純な非整合性スコアであっても, 共形予測が有意な不確実性推定を導出できることが示唆された。
論文 参考訳(メタデータ) (2025-04-24T15:25:37Z) - Doubly Robust Conformalized Survival Analysis with Right-Censored Data [7.865172920957456]
本稿では,右知覚データから生存時間に対する低い予測境界を構築するための共形推論手法を提案する。
提案手法は,機械学習モデルを用いて未観測の検閲時間をインプットし,重み付き共形推論を用いてインプットデータを解析する。
論文 参考訳(メタデータ) (2024-12-12T21:36:24Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Bayesian analysis of the prevalence bias: learning and predicting from
imbalanced data [10.659348599372944]
本稿では,モデル学習のための理論的および計算的枠組みと,有病率バイアスの存在下での予測について述べる。
原則的なトレーニング損失の代替として,要約曲線から操作点を選択することで,テスト時の手順を補完するものだ。
バックプロパゲーションを用いた(深い)学習の現在のパラダイムにシームレスに統合され、ベイズモデルと自然に結合する。
論文 参考訳(メタデータ) (2021-07-31T14:36:33Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。