論文の概要: Achieving Reliable Causal Inference with Data-Mined Variables: A Random
Forest Approach to the Measurement Error Problem
- arxiv url: http://arxiv.org/abs/2012.10790v1
- Date: Sat, 19 Dec 2020 21:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 12:38:52.811981
- Title: Achieving Reliable Causal Inference with Data-Mined Variables: A Random
Forest Approach to the Measurement Error Problem
- Title(参考訳): データマイニング変数による信頼性のある因果推論の実現:測定誤差問題に対するランダムフォレストアプローチ
- Authors: Mochen Yang, Edward McFowland III, Gordon Burtch and Gediminas
Adomavicius
- Abstract要約: 一般的な実証的戦略は、利用可能なデータから関心のある変数を'マイニング'する予測モデリング手法の適用を含む。
最近の研究は、機械学習モデルからの予測は必然的に不完全であるため、予測変数に基づく計量分析は測定誤差によるバイアスに悩まされる可能性が高いことを強調している。
ランダムフォレストと呼ばれるアンサンブル学習技術を用いて,これらのバイアスを軽減する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 1.5749416770494704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combining machine learning with econometric analysis is becoming increasingly
prevalent in both research and practice. A common empirical strategy involves
the application of predictive modeling techniques to 'mine' variables of
interest from available data, followed by the inclusion of those variables into
an econometric framework, with the objective of estimating causal effects.
Recent work highlights that, because the predictions from machine learning
models are inevitably imperfect, econometric analyses based on the predicted
variables are likely to suffer from bias due to measurement error. We propose a
novel approach to mitigate these biases, leveraging the ensemble learning
technique known as the random forest. We propose employing random forest not
just for prediction, but also for generating instrumental variables to address
the measurement error embedded in the prediction. The random forest algorithm
performs best when comprised of a set of trees that are individually accurate
in their predictions, yet which also make 'different' mistakes, i.e., have
weakly correlated prediction errors. A key observation is that these properties
are closely related to the relevance and exclusion requirements of valid
instrumental variables. We design a data-driven procedure to select tuples of
individual trees from a random forest, in which one tree serves as the
endogenous covariate and the other trees serve as its instruments. Simulation
experiments demonstrate the efficacy of the proposed approach in mitigating
estimation biases and its superior performance over three alternative methods
for bias correction.
- Abstract(参考訳): 機械学習と計量分析の組み合わせは、研究と実践の両方でますます普及している。
一般的な実証的戦略は、利用可能なデータから興味のある変数を「マイニング」するために予測モデリング技術を適用し、その後、因果効果を推定する目的で、それらの変数を計量的フレームワークに含めることである。
最近の研究は、機械学習モデルからの予測は必然的に不完全であるため、予測変数に基づく計量分析は測定誤差によるバイアスに悩まされる可能性が高いことを強調している。
本稿では,ランダム森林として知られるアンサンブル学習手法を利用して,これらのバイアスを軽減する新しい手法を提案する。
予測に埋め込まれた測定誤差に対処するために,予測だけでなく,機器変数の生成にもランダムフォレストを用いることを提案する。
ランダムフォレストアルゴリズムは、予測において個別に正確でありながら「異なる」誤り、すなわち弱い相関の予測誤差を生じさせる一連の木からなる場合に最もよく機能する。
鍵となる観察は、これらの性質が有効な機器変数の関連性と排除要件に密接に関連していることである。
ランダムな森林から個々の樹木のタプルを選抜するデータ駆動手法を考案し,1つの木が内生的共変量体として,もう1つの木がその道具として機能する。
シミュレーション実験により, 推定バイアスの軽減における提案手法の有効性と, バイアス補正のための3つの代替手法よりも優れた性能を示す。
関連論文リスト
- Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - On Uncertainty Estimation by Tree-based Surrogate Models in Sequential
Model-based Optimization [13.52611859628841]
予測不確実性推定の観点から,ランダム化木の様々なアンサンブルを再検討し,その挙動について検討する。
BwO林と呼ばれる無作為な樹木のアンサンブルを構築するための新しい手法を提案する。
実験により,既存の樹木モデルに対するBwO林の有効性と性能について様々な状況で検証した。
論文 参考訳(メタデータ) (2022-02-22T04:50:37Z) - On Variance Estimation of Random Forests [0.0]
本稿では,不完全U-統計量に基づく不偏分散推定器を開発する。
我々は,計算コストを増大させることなく,より低いバイアスとより正確な信頼区間のカバレッジを評価できることを示した。
論文 参考訳(メタデータ) (2022-02-18T03:35:47Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Treeging [0.0]
木組みは回帰木の柔軟な平均構造と、アンサンブル予測アルゴリズムのベース学習者へのクリグの共分散に基づく予測戦略を組み合わせる。
本研究では,空間及び時空シミュレーションシナリオの網羅的かつ広範囲な電池を横断するツリーングの予測精度について検討した。
論文 参考訳(メタデータ) (2021-10-03T17:48:18Z) - CovarianceNet: Conditional Generative Model for Correct Covariance
Prediction in Human Motion Prediction [71.31516599226606]
本稿では,将来の軌道の予測分布に関連する不確かさを正確に予測する手法を提案する。
我々のアプローチであるCovariaceNetは、ガウス潜在変数を持つ条件付き生成モデルに基づいている。
論文 参考訳(メタデータ) (2021-09-07T09:38:24Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic
Regression [51.770998056563094]
PGBM(Probabilistic Gradient Boosting Machines)は、確率的予測を生成する手法である。
既存の最先端手法と比較してPGBMの利点を実証的に示す。
論文 参考訳(メタデータ) (2021-06-03T08:32:13Z) - Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-04-06T20:18:29Z) - Sparse Bayesian Causal Forests for Heterogeneous Treatment Effects
Estimation [0.0]
本稿では,ベイジアン因果樹林のスパース性誘導型を考案する。
観察データを用いて不均一な治療効果を推定する。
論文 参考訳(メタデータ) (2021-02-12T15:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。