論文の概要: Achieving Reliable Causal Inference with Data-Mined Variables: A Random
Forest Approach to the Measurement Error Problem
- arxiv url: http://arxiv.org/abs/2012.10790v1
- Date: Sat, 19 Dec 2020 21:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 12:38:52.811981
- Title: Achieving Reliable Causal Inference with Data-Mined Variables: A Random
Forest Approach to the Measurement Error Problem
- Title(参考訳): データマイニング変数による信頼性のある因果推論の実現:測定誤差問題に対するランダムフォレストアプローチ
- Authors: Mochen Yang, Edward McFowland III, Gordon Burtch and Gediminas
Adomavicius
- Abstract要約: 一般的な実証的戦略は、利用可能なデータから関心のある変数を'マイニング'する予測モデリング手法の適用を含む。
最近の研究は、機械学習モデルからの予測は必然的に不完全であるため、予測変数に基づく計量分析は測定誤差によるバイアスに悩まされる可能性が高いことを強調している。
ランダムフォレストと呼ばれるアンサンブル学習技術を用いて,これらのバイアスを軽減する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 1.5749416770494704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combining machine learning with econometric analysis is becoming increasingly
prevalent in both research and practice. A common empirical strategy involves
the application of predictive modeling techniques to 'mine' variables of
interest from available data, followed by the inclusion of those variables into
an econometric framework, with the objective of estimating causal effects.
Recent work highlights that, because the predictions from machine learning
models are inevitably imperfect, econometric analyses based on the predicted
variables are likely to suffer from bias due to measurement error. We propose a
novel approach to mitigate these biases, leveraging the ensemble learning
technique known as the random forest. We propose employing random forest not
just for prediction, but also for generating instrumental variables to address
the measurement error embedded in the prediction. The random forest algorithm
performs best when comprised of a set of trees that are individually accurate
in their predictions, yet which also make 'different' mistakes, i.e., have
weakly correlated prediction errors. A key observation is that these properties
are closely related to the relevance and exclusion requirements of valid
instrumental variables. We design a data-driven procedure to select tuples of
individual trees from a random forest, in which one tree serves as the
endogenous covariate and the other trees serve as its instruments. Simulation
experiments demonstrate the efficacy of the proposed approach in mitigating
estimation biases and its superior performance over three alternative methods
for bias correction.
- Abstract(参考訳): 機械学習と計量分析の組み合わせは、研究と実践の両方でますます普及している。
一般的な実証的戦略は、利用可能なデータから興味のある変数を「マイニング」するために予測モデリング技術を適用し、その後、因果効果を推定する目的で、それらの変数を計量的フレームワークに含めることである。
最近の研究は、機械学習モデルからの予測は必然的に不完全であるため、予測変数に基づく計量分析は測定誤差によるバイアスに悩まされる可能性が高いことを強調している。
本稿では,ランダム森林として知られるアンサンブル学習手法を利用して,これらのバイアスを軽減する新しい手法を提案する。
予測に埋め込まれた測定誤差に対処するために,予測だけでなく,機器変数の生成にもランダムフォレストを用いることを提案する。
ランダムフォレストアルゴリズムは、予測において個別に正確でありながら「異なる」誤り、すなわち弱い相関の予測誤差を生じさせる一連の木からなる場合に最もよく機能する。
鍵となる観察は、これらの性質が有効な機器変数の関連性と排除要件に密接に関連していることである。
ランダムな森林から個々の樹木のタプルを選抜するデータ駆動手法を考案し,1つの木が内生的共変量体として,もう1つの木がその道具として機能する。
シミュレーション実験により, 推定バイアスの軽減における提案手法の有効性と, バイアス補正のための3つの代替手法よりも優れた性能を示す。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Building Trees for Probabilistic Prediction via Scoring Rules [0.0]
非パラメトリックな予測分布を生成するために木を修正することを研究する。
木を構築するための標準的な手法は、良い予測分布にはならないかもしれない。
我々は,適切なスコアリングルールに基づいて,木の分割基準を1つに変更することを提案する。
論文 参考訳(メタデータ) (2024-02-16T20:04:13Z) - Inference with Mondrian Random Forests [6.97762648094816]
我々は、モンドリアンのランダムな森林回帰推定器に対して、ベリー・エッセイン型中央極限定理とともに、正確なバイアスと分散特性を与える。
未知回帰関数に対する有効な統計的推測法を提案する。
効率的で実装可能なアルゴリズムは、バッチとオンラインの学習設定の両方に考案されている。
論文 参考訳(メタデータ) (2023-10-15T01:41:42Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Prediction-Powered Inference [68.97619568620709]
予測を用いた推論は、実験データセットに機械学習システムからの予測を補足した場合に有効な統計的推論を行うためのフレームワークである。
このフレームワークは、手段、量子、線形およびロジスティック回帰係数などの量に対して証明可能な信頼区間を計算するための単純なアルゴリズムを生成する。
予測による推論により、研究者は機械学習を使用して、より有効な、よりデータ効率の高い結論を導き出すことができる。
論文 参考訳(メタデータ) (2023-01-23T18:59:28Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-04-06T20:18:29Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - Stable Prediction via Leveraging Seed Variable [73.9770220107874]
従来の機械学習手法は、非因果変数によって誘導されるトレーニングデータにおいて、微妙に刺激的な相関を利用して予測する。
本研究では, 条件付き独立性テストに基づくアルゴリズムを提案し, 種子変数を先行変数とする因果変数を分離し, 安定な予測に採用する。
我々のアルゴリズムは、安定した予測のための最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-06-09T06:56:31Z) - A Numerical Transform of Random Forest Regressors corrects
Systematically-Biased Predictions [0.0]
ランダムな森林モデルからの予測には体系的なバイアスがある。
このバイアスは単純な合成データセットで再カプセル化される。
トレーニングデータを使用して、それを完全に修正する数値変換を定義します。
論文 参考訳(メタデータ) (2020-03-16T21:18:06Z) - Fr\'echet random forests for metric space valued regression with non
euclidean predictors [0.0]
我々はFr'echet木とFr'echetランダムフォレストを導入し、入力変数と出力変数が一般的な距離空間で値を取るデータを処理する。
データ駆動分割を用いたFr'echet回帰図予測器の一貫性定理をFr'echetの純粋にランダムな木に適用する。
論文 参考訳(メタデータ) (2019-06-04T22:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。