論文の概要: A Reinforcement Learning Approach to Estimating Long-term Treatment
Effects
- arxiv url: http://arxiv.org/abs/2210.07536v1
- Date: Fri, 14 Oct 2022 05:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:58:13.363009
- Title: A Reinforcement Learning Approach to Estimating Long-term Treatment
Effects
- Title(参考訳): 長期治療効果推定のための強化学習手法
- Authors: Ziyang Tang, Yiheng Duan, Stephanie Zhang, Lihong Li
- Abstract要約: ランダム化実験による制限は、長期効果を測定するために容易に拡張できないことである。
マルコフ過程における平均報酬を推定する強化学習(RL)アプローチを採用する。
観測された状態遷移が非定常である実世界のシナリオに動機付けられ、非定常問題のクラスのための新しいアルゴリズムを開発する。
- 参考スコア(独自算出の注目度): 13.371851720834918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Randomized experiments (a.k.a. A/B tests) are a powerful tool for estimating
treatment effects, to inform decisions making in business, healthcare and other
applications. In many problems, the treatment has a lasting effect that evolves
over time. A limitation with randomized experiments is that they do not easily
extend to measure long-term effects, since running long experiments is
time-consuming and expensive. In this paper, we take a reinforcement learning
(RL) approach that estimates the average reward in a Markov process. Motivated
by real-world scenarios where the observed state transition is nonstationary,
we develop a new algorithm for a class of nonstationary problems, and
demonstrate promising results in two synthetic datasets and one online store
dataset.
- Abstract(参考訳): ランダム化実験(別名a/bテスト)は、治療効果を推定し、ビジネス、医療、その他のアプリケーションで意思決定を知らせる強力なツールである。
多くの問題において、治療は時間とともに進化する持続的な効果を持つ。
ランダム化実験の制限は、長い実験は時間がかかり費用がかかるため、長期効果を測定するために容易に拡張できないことである。
本稿では,マルコフ過程における平均報酬を推定する強化学習(RL)手法を提案する。
観測された状態遷移が非定常な実世界のシナリオに触発され、非定常問題のクラスのための新しいアルゴリズムを開発し、2つの合成データセットと1つのオンラインストアデータセットで有望な結果を示す。
関連論文リスト
- Experimenting on Markov Decision Processes with Local Treatments [13.182388658918502]
マルコフ決定過程(MDP)をモデル化した力学系におけるランダム化実験について検討する。
我々のゴールは、比較的短期的な観察による長期累積報酬に対する治療・制御政策の影響を評価することである。
論文 参考訳(メタデータ) (2024-07-29T00:41:11Z) - Choosing a Proxy Metric from Past Experiments [54.338884612982405]
多くのランダム化実験では、長期的な計量の処理効果は測定が困難または不可能であることが多い。
一般的な方法は、いくつかの短期的プロキシメトリクスを計測して、長期的メトリックを綿密に追跡することである。
ランダム化実験の同種集団において最適なプロキシメトリックを定義し構築するための新しい統計フレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-14T17:43:02Z) - Accounting For Informative Sampling When Learning to Forecast Treatment
Outcomes Over Time [66.08455276899578]
適切な基準を満たさない場合,情報サンプリングは治療結果の正確な推定を禁止できることが示唆された。
逆強度重み付けを用いた情報サンプリングの存在下での処理結果を学習するための一般的な枠組みを提案する。
本稿では,ニューラルCDEを用いてこのフレームワークをインスタンス化する新しい手法であるTESAR-CDEを提案する。
論文 参考訳(メタデータ) (2023-06-07T08:51:06Z) - B-Learner: Quasi-Oracle Bounds on Heterogeneous Causal Effects Under
Hidden Confounding [51.74479522965712]
本稿では,B-Learnerと呼ばれるメタラーナーを提案する。
我々は、その推定が有効で、鋭く、効率的であることを証明し、既存の方法よりも一般的な条件下で構成推定器に対して準オーラル特性を持つことを示した。
論文 参考訳(メタデータ) (2023-04-20T18:07:19Z) - Estimating long-term causal effects from short-term experiments and
long-term observational data with unobserved confounding [5.854757988966379]
実験データと観測データの両方が利用可能である場合の長期治療効果の同定と推定について検討した。
我々の長期因果効果推定器は、回帰残差と短期実験結果を組み合わせることで得られる。
論文 参考訳(メタデータ) (2023-02-21T12:22:47Z) - Long-term Causal Inference Under Persistent Confounding via Data Combination [38.026740610259225]
実験データと観測データの両方が利用可能である場合の長期治療効果の同定と推定について検討した。
長期の成果は長期間の遅延後にのみ観測されるため、実験データでは測定されず、観測データでのみ記録される。
論文 参考訳(メタデータ) (2022-02-15T07:44:20Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - Counterfactual Propagation for Semi-Supervised Individual Treatment
Effect Estimation [21.285425135761795]
個別治療効果(英: individual treatment effect、ITE)とは、特定の標的に特定の行動をとる結果の期待された改善を示す。
本研究では、より容易に利用可能な未ラベルのインスタンスを利用する半教師付きITE推定問題について考察する。
本稿では,最初の半教師付きITT推定法である反実伝搬法を提案する。
論文 参考訳(メタデータ) (2020-05-11T13:32:38Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z) - Generalization Bounds and Representation Learning for Estimation of
Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。
我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。
これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文 参考訳(メタデータ) (2020-01-21T10:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。