論文の概要: Multi-Source Causal Inference Using Control Variates
- arxiv url: http://arxiv.org/abs/2103.16689v1
- Date: Tue, 30 Mar 2021 21:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:19:39.444257
- Title: Multi-Source Causal Inference Using Control Variates
- Title(参考訳): 制御変数を用いた多元因果推論
- Authors: Wenshuo Guo, Serena Wang, Peng Ding, Yixin Wang, Michael I. Jordan
- Abstract要約: 本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
- 参考スコア(独自算出の注目度): 81.57072928775509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While many areas of machine learning have benefited from the increasing
availability of large and varied datasets, the benefit to causal inference has
been limited given the strong assumptions needed to ensure identifiability of
causal effects; these are often not satisfied in real-world datasets. For
example, many large observational datasets (e.g., case-control studies in
epidemiology, click-through data in recommender systems) suffer from selection
bias on the outcome, which makes the average treatment effect (ATE)
unidentifiable. We propose a general algorithm to estimate causal effects from
\emph{multiple} data sources, where the ATE may be identifiable only in some
datasets but not others. The key idea is to construct control variates using
the datasets in which the ATE is not identifiable. We show theoretically that
this reduces the variance of the ATE estimate. We apply this framework to
inference from observational data under an outcome selection bias, assuming
access to an auxiliary small dataset from which we can obtain a consistent
estimate of the ATE. We construct a control variate by taking the difference of
the odds ratio estimates from the two datasets. Across simulations and two case
studies with real data, we show that this control variate can significantly
reduce the variance of the ATE estimate.
- Abstract(参考訳): 機械学習の多くの領域は、大規模で多様なデータセットの可用性の増大から恩恵を受けているが、因果効果の識別性を保証するための強い仮定を考えると、因果推論の利点は限られている。
例えば、多くの大きな観察データセット(例えば、疫学におけるケースコントロール研究、レコメンデーションシステムにおけるクリックスルーデータ)は、結果に対する選択バイアスに悩まされており、平均的な治療効果(ate)は特定できない。
本研究では,データソースから因果効果を推定する一般的なアルゴリズムを提案する。
主要なアイデアは、ATEが識別できないデータセットを使用して、制御変数を構築することである。
理論的には、これはATE推定の分散を減少させる。
このフレームワークを,結果選択バイアス下の観測データからの推論に適用し,ateの一貫した推定が得られる補助的な小さなデータセットへのアクセスを仮定する。
2つのデータセットからオッズ比の推定値の差を計算して制御変数を構築する。
実データを用いたシミュレーションと2つのケーススタディにより、この制御変数はATE推定のばらつきを著しく低減できることを示した。
関連論文リスト
- Binary Quantification and Dataset Shift: An Experimental Investigation [54.14283123210872]
量子化は教師付き学習タスクであり、未学習データの集合のクラス有病率の予測器を訓練する。
定量化と他のタイプのデータセットシフトの関係は、いまだ大きく、未調査のままである。
本稿では,これらのシフトに影響を受けるデータセットの生成プロトコルを確立することにより,データセットシフトの種類を詳細に分類する手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T20:11:27Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Generalizing experimental findings: identification beyond adjustments [2.5889737226898437]
ランダム化比較試験(RCT)の結果を,観測データを用いて対象集団に一般化することを目的としている。
実験結果が調整によって一般化できない事例を考察する。
この一般化は、do-calculusを適用することで導出できる他の識別戦略によっても可能であることを示す。
論文 参考訳(メタデータ) (2022-06-14T09:00:17Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。
提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T15:12:05Z) - Causal Inference With Selectively Deconfounded Data [22.624714904663424]
我々は、平均治療効果(ATE)を推定する際に、大規模な統合された観測データセット(共同設立者なし)と小さな非統合された観測データセット(共同設立者明らかに)を組み込むことの利点を検討する。
理論的には, 待ち行列を所望の精度で推定するために必要なデコンストラクタデータの量を大幅に削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-02-25T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。