論文の概要: Semi-supervised learning and the question of true versus estimated
propensity scores
- arxiv url: http://arxiv.org/abs/2009.06183v1
- Date: Mon, 14 Sep 2020 04:13:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 12:59:46.291949
- Title: Semi-supervised learning and the question of true versus estimated
propensity scores
- Title(参考訳): 半教師付き学習と真と推定正当性スコアの問題
- Authors: Andrew Herren, P. Richard Hahn
- Abstract要約: 本稿では, 既知の確率関数が治療効果を推定するのに有用である, という強い直感を再現する簡単な手順を提案する。
さらに、シミュレーション研究は、多くの状況において逆正当性重み推定器よりも直接回帰が好ましいことを示唆している。
- 参考スコア(独自算出の注目度): 0.456877715768796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A straightforward application of semi-supervised machine learning to the
problem of treatment effect estimation would be to consider data as "unlabeled"
if treatment assignment and covariates are observed but outcomes are
unobserved. According to this formulation, large unlabeled data sets could be
used to estimate a high dimensional propensity function and causal inference
using a much smaller labeled data set could proceed via weighted estimators
using the learned propensity scores. In the limiting case of infinite unlabeled
data, one may estimate the high dimensional propensity function exactly.
However, longstanding advice in the causal inference community suggests that
estimated propensity scores (from labeled data alone) are actually preferable
to true propensity scores, implying that the unlabeled data is actually useless
in this context. In this paper we examine this paradox and propose a simple
procedure that reconciles the strong intuition that a known propensity
functions should be useful for estimating treatment effects with the previous
literature suggesting otherwise. Further, simulation studies suggest that
direct regression may be preferable to inverse-propensity weight estimators in
many circumstances.
- Abstract(参考訳): 半教師付き機械学習の治療効果推定問題への直接的な応用は、治療の割り当てと共変量が観察されるが結果が観察されない場合、データが「ラベルなし」であると考えることである。
この定式化によれば、大きなラベル付きデータセットを用いて高次元の確率関数を推定し、より小さなラベル付きデータセットを用いて因果推論を行うことで、学習された確率スコアを用いて重み付き推定を行うことができる。
無限ラベルのないデータの制限の場合、高次元の確率関数を正確に推定することができる。
しかし、因果推論コミュニティの長年のアドバイスは、(ラベル付きデータのみから)推定された正当性スコアは実際には真の正当性スコアよりも好まれており、この文脈ではラベルなしデータが実際には役に立たないことを示唆している。
本稿では, このパラドックスを考察し, 既知の確率関数が, 従来の文献による治療効果を推定するのに有用であるという強い直感を再現する簡単な手順を提案する。
さらにシミュレーション研究は, 多くの状況において, 直接回帰が逆プロペンシティ重み推定器よりも好ましいことを示唆する。
関連論文リスト
- Label Shift Estimators for Non-Ignorable Missing Data [2.605549784939959]
ランダム変数 Y の平均を非無視的欠損(すなわち、不足メカニズムが Y に依存する場合)で推定する問題を考察する。
当社のアプローチは、無視できないアプローチと無視できないアプローチを比較して、大規模な健康調査を用いて、病気の有病率を推定するために使用します。
論文 参考訳(メタデータ) (2023-10-27T16:50:13Z) - Error Reduction from Stacked Regressions [14.226205980875262]
積み重ね回帰は、予測精度を高めるために異なる回帰推定器の線形結合を形成するアンサンブル手法である。
本稿では,非負性制約による人口リスクの推定を最小化することにより,これらの重みを類似的に学習する。
縮小効果により、結果として生じる累積推定器は、最も優れた単一推定器よりも人口リスクが厳密に小さい。
論文 参考訳(メタデータ) (2023-09-18T15:42:12Z) - Quantifying predictive uncertainty of aphasia severity in stroke
patients with sparse heteroscedastic Bayesian high-dimensional regression [49.504432873468254]
高次元データに対する疎線型回帰法は、通常、残留物が一定の分散を持つと仮定するが、これは実際には破ることができる。
本稿では,ヘテロセダスティック分割経験的ベイズ期待条件最大化アルゴリズムを用いて,高次元ヘテロセダスティック線形回帰モデルを推定する。
論文 参考訳(メタデータ) (2023-09-15T22:06:29Z) - Propensity score models are better when post-calibrated [0.32228025627337864]
ポスト校正は、表現的未校正統計推定器における効果推定における誤差を低減する。
効果推定の改善とポスト校正が計算的に安価であることを考えると、表現的モデルを用いて確率スコアをモデル化する場合に採用することを推奨する。
論文 参考訳(メタデータ) (2022-11-02T16:01:03Z) - Maximum Likelihood Estimation in Gaussian Process Regression is
Ill-Posed [7.018149356115115]
最大極大推定が適切である状況を確立することは、依然として未解決の問題である。
本稿は、最大可能性推定器が正しく提示されないシナリオを特定する。
最大推定の失敗はガウス過程の民俗学の一部ではあるが、これらの厳密な理論的な結果はそれらの種類の最初のものと思われる。
論文 参考訳(メタデータ) (2022-03-17T09:00:39Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。