論文の概要: Estimation of conditional average treatment effects on distributed data:
A privacy-preserving approach
- arxiv url: http://arxiv.org/abs/2402.02672v1
- Date: Mon, 5 Feb 2024 02:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:12:22.159352
- Title: Estimation of conditional average treatment effects on distributed data:
A privacy-preserving approach
- Title(参考訳): 分散データに対する条件付き平均治療効果の推定--プライバシ保存アプローチ
- Authors: Yuji Kawamata, Ryoki Motai, Yukihiko Okada, Akira Imakura, Tetsuya
Sakurai
- Abstract要約: 条件平均治療効果(CATE)の推定は、医学や社会科学など様々な分野において重要なトピックである。
我々は、分散データのプライバシー保護を伴うCATEモデルを推定するために、データ協調二重機械学習(DC-DML)を提案する。
提案手法は, 合成, 半合成, 実世界のデータセットを用いた評価実験において, 他の手法よりも優れている。
- 参考スコア(独自算出の注目度): 7.293479909193382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimation of conditional average treatment effects (CATEs) is an important
topic in various fields such as medical and social sciences. CATEs can be
estimated with high accuracy if distributed data across multiple parties can be
centralized. However, it is difficult to aggregate such data if they contain
privacy information. To address this issue, we proposed data collaboration
double machine learning (DC-DML), a method that can estimate CATE models with
privacy preservation of distributed data, and evaluated the method through
numerical experiments. Our contributions are summarized in the following three
points. First, our method enables estimation and testing of semi-parametric
CATE models without iterative communication on distributed data.
Semi-parametric or non-parametric CATE models enable estimation and testing
that is more robust to model mis-specification than parametric models. However,
to our knowledge, no communication-efficient method has been proposed for
estimating and testing semi-parametric or non-parametric CATE models on
distributed data. Second, our method enables collaborative estimation between
different parties as well as multiple time points because the
dimensionality-reduced intermediate representations can be accumulated. Third,
our method performed as well or better than other methods in evaluation
experiments using synthetic, semi-synthetic and real-world datasets.
- Abstract(参考訳): 条件平均治療効果(CATE)の推定は、医学や社会科学など様々な分野において重要なトピックである。
複数のパーティにわたる分散データが集中できる場合、CATEは高い精度で推定できる。
しかし、プライバシー情報を含む場合、そのようなデータを集約することは困難である。
そこで本研究では,分散データのプライバシ保存を伴うCATEモデルの推定手法であるDC-DML(Data collaboration double machine learning)を提案し,数値実験により評価した。
私たちの貢献は以下の3点にまとめられている。
まず,分散データ上で反復的な通信を行うことなく,半パラメトリックCATEモデルの推定とテストを可能にする。
半パラメトリックまたは非パラメトリックCATEモデルは、パラメトリックモデルよりも誤特定をモデル化するのに堅牢な推定とテストを可能にする。
しかし,分散データ上で半パラメトリック・非パラメトリック・ケートモデルを推定・評価するための通信効率のよい手法は提案されていない。
第2に,次元レデュースした中間表現を蓄積できるため,複数の時間点とパーティ間の協調的な推定が可能となる。
第3に, 合成, 半合成, 実世界のデータセットを用いた評価実験において, 本手法は, 他の手法よりも優れていた。
関連論文リスト
- Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)はこの文脈で際立っているのは、深層生成モデルのトレーニングにシミュレーションのデータセットを必要とすることである。
本研究では,複数の観測値が利用可能であり,それらの共有情報を活用してモデルのパラメータをよりよく推測することのできる,背の高いデータ拡張について考察する。
提案手法は,近年盛んに行われているスコアベース拡散文学の成果に基づいて構築され,個々の観測に基づいて学習したスコアネットワークの情報を用いて,高度データ後部分布を推定することができる。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Bayesian Federated Inference for regression models with heterogeneous
multi-center populations [0.0]
回帰モデルでは、サンプルサイズは予測器の数に対して十分な大きさでなければならない。
異なる(医療)センターで収集された異なるデータセットからデータをポーリングすることはこの問題を軽減するが、プライバシー規制やロジスティックな問題のためにしばしば実現不可能である。
別の方法は、センター内のローカルデータを別々に分析し、統計的推測結果とベイズ連邦推論(BFI)手法を組み合わせることである。
このアプローチの目的は、組み合わせたデータに対して統計的解析を行った場合、何を発見したのかを、別々の中心における推論結果から計算することである。
論文 参考訳(メタデータ) (2024-02-05T11:10:27Z) - Meta-learning for heterogeneous treatment effect estimation with
closed-form solvers [30.343569752920754]
本稿では,いくつかの観測データから条件平均処理効果(CATE)を推定するメタラーニング手法を提案する。
提案手法は,複数のタスクからCATEを推定する方法を学習し,未知のタスクの知識を利用する。
論文 参考訳(メタデータ) (2023-05-19T00:07:38Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Estimation of Local Average Treatment Effect by Data Combination [3.655021726150368]
治療課題の遵守が不完全である場合には、局所的平均治療効果(LATE)を推定することが重要である。
以前提案されたLATE推定法では、関連するすべての変数を1つのデータセットで共同で観測することが必要であった。
最小値の定式化を回避し,より簡易なモデル選択を可能とする重み付き最小二乗推定器を提案する。
論文 参考訳(メタデータ) (2021-09-11T03:51:48Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - A similarity-based Bayesian mixture-of-experts model [0.5156484100374058]
多変量回帰問題に対する新しい非パラメトリック混合実験モデルを提案する。
条件付きモデルを用いて、サンプル外入力の予測は、観測された各データポイントと類似性に基づいて行われる。
混合物のパラメータと距離測定値に基づいて後部推論を行う。
論文 参考訳(メタデータ) (2020-12-03T18:08:30Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z) - Unbiased and Efficient Log-Likelihood Estimation with Inverse Binomial
Sampling [9.66840768820136]
逆二項サンプリング(IBS)は、データセット全体のログ類似度を、バイアスなく効率的に推定することができる。
IBSは、推定パラメータと最大対数類似値において、代替サンプリング法よりも低い誤差を生成する。
論文 参考訳(メタデータ) (2020-01-12T19:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。