論文の概要: A Large Scale Benchmark for Individual Treatment Effect Prediction and
Uplift Modeling
- arxiv url: http://arxiv.org/abs/2111.10106v1
- Date: Fri, 19 Nov 2021 09:07:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 14:31:59.885273
- Title: A Large Scale Benchmark for Individual Treatment Effect Prediction and
Uplift Modeling
- Title(参考訳): 個別処理効果予測と昇降モデルのための大規模ベンチマーク
- Authors: Eustache Diemert, Artem Betlei, Christophe Renaudin, Massih-Reza
Amini, Th\'eophane Gregoir, Thibaud Rahier
- Abstract要約: 個別治療効果(ITE)予測は、粒度レベルでの行動の因果的影響を説明し、推定することを目的としている。
このトピックの研究を促進するために、いくつかのランダム化制御試験から収集された139万のサンプルの公開コレクションをリリースする。
- 参考スコア(独自算出の注目度): 7.1736440498963105
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Individual Treatment Effect (ITE) prediction is an important area of research
in machine learning which aims at explaining and estimating the causal impact
of an action at the granular level. It represents a problem of growing interest
in multiple sectors of application such as healthcare, online advertising or
socioeconomics. To foster research on this topic we release a publicly
available collection of 13.9 million samples collected from several randomized
control trials, scaling up previously available datasets by a healthy 210x
factor. We provide details on the data collection and perform sanity checks to
validate the use of this data for causal inference tasks. First, we formalize
the task of uplift modeling (UM) that can be performed with this data, along
with the relevant evaluation metrics. Then, we propose synthetic response
surfaces and heterogeneous treatment assignment providing a general set-up for
ITE prediction. Finally, we report experiments to validate key characteristics
of the dataset leveraging its size to evaluate and compare - with high
statistical significance - a selection of baseline UM and ITE prediction
methods.
- Abstract(参考訳): 個別処理効果(ITE)予測は、粒度レベルでの行動の因果的影響の説明と推定を目的とした機械学習における重要な研究領域である。
これは、医療、オンライン広告、社会経済といった、複数の分野のアプリケーションへの関心が高まる問題を表している。
このトピックに関する研究を促進すべく、いくつかのランダム化されたコントロールトライアルから収集された1390万のサンプルの公開コレクションをリリースします。
我々は、データ収集の詳細と、このデータを利用した因果推論タスクの正当性チェックを行う。
まず,このデータを用いて行うことのできるアップリフトモデリング(um)のタスクと,関連する評価指標を定式化する。
そして,ITE予測のための一般的なセットアップを提供する合成応答面とヘテロジニアス処理割り当てを提案する。
最後に,データセットの大きさを利用して,ベースラインumとiteの予測手法を選定し,統計的に有意な評価・比較を行う実験を行った。
関連論文リスト
- Using representation balancing to learn conditional-average dose responses from clustered data [5.633848204699653]
関連する用量による介入に対する単位の反応を推定することは、様々な領域において関係している。
本稿では,クラスタ化データによるモデル性能への影響を示すとともに,推定器であるCBRNetを提案する。
論文 参考訳(メタデータ) (2023-09-07T14:17:44Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - DESCN: Deep Entire Space Cross Networks for Individual Treatment Effect
Estimation [7.060064266376701]
因果推論は、Eコマースや精密医療など様々な分野で広く応用されている。
本稿では,エンド・ツー・エンドの観点から治療効果をモデル化するためのDeep Entire Space Cross Networks (DESCN)を提案する。
論文 参考訳(メタデータ) (2022-07-19T01:25:31Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Causal Markov Boundaries [0.0]
観測データを用いて特徴選択と効果推定を改善する方法を紹介します。
本論文では,マルコフ境界の概念を治療成果ペアに拡張する。
論文 参考訳(メタデータ) (2021-03-12T22:49:10Z) - Double machine learning for sample selection models [0.12891210250935145]
本稿では,サンプル選択や帰属によるサブポピュレーションに対してのみ結果が観察される場合の個別分散処理の評価について考察する。
a)Neyman-orthogonal, Duubly robust, and efficient score function, which suggests the robustness of treatment effect Estimation to moderate regularization biases in the machine learning based Estimation of the outcome, treatment, or sample selection model and (b) sample splitting ( or cross-fitting) to prevent overfitting bias。
論文 参考訳(メタデータ) (2020-11-30T19:40:21Z) - Statistical Analytics and Regional Representation Learning for COVID-19
Pandemic Understanding [4.731074162093199]
新型コロナウイルスの感染拡大が世界のほぼすべての国に深刻な影響を与えている。
本稿では、統一された情報ソースを提供するために、公開データセットの広範なコレクションを統合し、処理する。
本研究では,予測イベントモデリングのために,DoubleWindowLSTM-CPと呼ばれる特定のRNNベースの推論パイプラインを提案する。
論文 参考訳(メタデータ) (2020-08-08T03:35:16Z) - Enabling Counterfactual Survival Analysis with Balanced Representations [64.17342727357618]
生存データは様々な医学的応用、すなわち薬物開発、リスクプロファイリング、臨床試験で頻繁に見られる。
本稿では,生存結果に適用可能な対実的推論のための理論的基盤を持つ統一的枠組みを提案する。
論文 参考訳(メタデータ) (2020-06-14T01:15:00Z) - Predictive Modeling of ICU Healthcare-Associated Infections from
Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling
Approach [55.41644538483948]
本研究は,集中治療室における危険因子の同定と医療関連感染症の予測に焦点をあてる。
感染発生率の低減に向けた意思決定を支援することを目的とする。
論文 参考訳(メタデータ) (2020-05-07T16:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。