論文の概要: Improving the Estimation of Lifetime Effects in A/B Testing via Treatment Locality
- arxiv url: http://arxiv.org/abs/2407.19618v3
- Date: Tue, 09 Sep 2025 14:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:26.622315
- Title: Improving the Estimation of Lifetime Effects in A/B Testing via Treatment Locality
- Title(参考訳): 治療局所性を用いたA/B試験におけるライフタイム効果評価の改善
- Authors: Shuze Chen, David Simchi-Levi, Chonghuan Wang,
- Abstract要約: マルコフ決定過程における一般A/Bテストのための最適推論手法を開発した。
本研究では,非ターゲット状態の情報を共有することで,局所構造を利用する手法を提案する。
偏見を増大させることなく情報共有による分散低減の恩恵を受けることができることを示す。
- 参考スコア(独自算出の注目度): 16.36651676133996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Utilizing randomized experiments to evaluate the effect of short-term treatments on the short-term outcomes has been well understood and become the golden standard in industrial practice. However, as service systems become increasingly dynamical and personalized, much focus is shifting toward maximizing long-term outcomes, such as customer lifetime value, through lifetime exposure to interventions. Our goal is to assess the impact of treatment and control policies on long-term outcomes from relatively short-term observations, such as those generated by A/B testing. A key managerial observation is that many practical treatments are local, affecting only targeted states while leaving other parts of the policy unchanged. This paper rigorously investigates whether and how such locality can be exploited to improve estimation of long-term effects in Markov Decision Processes (MDPs), a fundamental model of dynamic systems. We first develop optimal inference techniques for general A/B testing in MDPs and establish corresponding efficiency bounds. We then propose methods to harness the localized structure by sharing information on the non-targeted states. Our new estimator can achieve a linear reduction with the number of test arms for a major part of the variance without sacrificing unbiasedness. It also matches a tighter variance lower bound that accounts for locality. Furthermore, we extend our framework to a broad class of differentiable estimators, which encompasses many widely used approaches in practice. We show that all such estimators can benefit from variance reduction through information sharing without increasing their bias. Together, these results provide both theoretical foundations and practical tools for conducting efficient experiments in dynamic service systems with local treatments.
- Abstract(参考訳): 短期的治療が短期成績に与える影響を評価するためにランダム化実験を利用することは、工業的実践における黄金の基準となっている。
しかし、サービスシステムが動的かつパーソナライズされていくにつれて、介入への生涯露出を通じて、顧客寿命価値などの長期的な成果の最大化に多くの焦点が移りつつある。
我々の目標は、A/Bテストなどの比較的短期的な観察から得られる長期的な結果に対する治療・管理方針の影響を評価することである。
主要な管理的観察は、多くの実践的治療が局所的であり、政策の他の部分はそのまま残しながらも、標的とする州にのみ影響を及ぼすことである。
本稿では,力学系の基本モデルであるマルコフ決定過程(MDPs)の長期的影響評価に,そのような局所性を活用できるかどうかを,厳密に検討する。
まず, MDPにおける一般A/Bテストのための最適推論手法を開発し, 対応する効率境界を確立する。
そこで我々は,非ターゲット状態の情報を共有することによって,局所構造を利用する手法を提案する。
我々の新しい推定器は、偏りを犠牲にすることなく、分散の大きな部分に対する試験アームの数を線形に減らすことができる。
また、局所性を考慮したより厳密な分散の低い境界と一致する。
さらに、我々のフレームワークを、実際に広く使われている多くのアプローチを含む、幅広い種類の微分可能推定器に拡張する。
偏見を増大させることなく情報共有による分散低減の恩恵を受けることができることを示す。
これらの結果は、局所的な処理を伴う動的サービスシステムにおける効率的な実験を行うための理論的基礎と実践的ツールの両方を提供する。
関連論文リスト
- Practical Improvements of A/B Testing with Off-Policy Estimation [51.25970890274447]
従来の手法よりも分散度を低くする非バイアスのオフ・ポリティクス推定器のファミリーを導入する。
提案手法の有効性と実用性を理論的に検証した。
論文 参考訳(メタデータ) (2025-06-12T13:11:01Z) - Post Launch Evaluation of Policies in a High-Dimensional Setting [4.710921988115686]
A/Bテスト(A/B test)またはランダム化制御実験(RCTs)は、新しいポリシー、製品、決定の影響を評価するための金の標準である。
本稿では「合成制御」にインスパイアされた方法論の適用に関する実践的考察を考察する。
合成制御法は、影響を受けていない単位からのデータを利用して、処理された単位に対する対実的な結果を推定する。
論文 参考訳(メタデータ) (2024-12-30T19:35:29Z) - Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets [51.2467404472005]
本稿では、複数の観測データセットからATEを推定し、有効なCIを提供する新しい手法を提案する。
本手法は観測データセットの仮定をほとんど行わず,医学的実践に広く応用できる。
論文 参考訳(メタデータ) (2024-12-16T07:39:46Z) - Estimating the treatment effect over time under general interference through deep learner integrated TMLE [7.2615408834692685]
DeepNetTMLE(DeepNetTMLE)は,ディープラーニングによる最大等量推定(TMLE)手法である。
DeepNetTMLEは、一般的な干渉の下で、時間によって変化する共同創設者のバイアスを軽減する。
我々は,DeepNetTMLEが,反実推定においてより低いバイアスとより正確な信頼区間を実現することを示す。
論文 参考訳(メタデータ) (2024-12-06T06:09:43Z) - Comparing Targeting Strategies for Maximizing Social Welfare with Limited Resources [20.99198458867724]
政策立案者はランダム化制御試験(RCT)からデータにアクセスされることが滅多にないため、個人が介入の恩恵を受けるであろう正確な見積もりが可能になる。
実践者は、一般的にリスクベースのターゲティングと呼ばれるテクニックを使用します。
現在、どの選択肢が最も効果的な機械学習インフォームドターゲティング戦略につながるかを知らせる実証的な証拠はほとんどない。
論文 参考訳(メタデータ) (2024-11-11T22:36:50Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Longitudinal Targeted Minimum Loss-based Estimation with Temporal-Difference Heterogeneous Transformer [7.451436112917229]
縦断的問題設定における動的処理ポリシーの下で, 結果の反実的平均を推定する新しい手法を提案する。
本手法では,時間差学習を用いて学習した異種型埋め込みを用いたトランスフォーマーアーキテクチャを用いる。
また, 統計的理論に基づく95%信頼区間の設定を可能とし, 統計的推測を容易にする。
論文 参考訳(メタデータ) (2024-04-05T20:56:15Z) - Individualized Policy Evaluation and Learning under Clustered Network Interference [3.8601741392210434]
本稿では,クラスタ化されたネットワーク干渉下での最適個別処理規則(ITR)の評価と学習の問題点について考察する。
ITRの実証性能を評価するための推定器を提案する。
学習ITRに対する有限サンプル残差を導出し、効率的な評価推定器の使用により学習ポリシーの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-11-04T17:58:24Z) - Stage-Aware Learning for Dynamic Treatments [3.6923632650826486]
動的治療体制のための新しい個別化学習法を提案する。
観測軌道が最適処理と完全に一致しなければならないという制約を緩和することにより,本手法はIPWE法における試料効率と安定性を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-30T06:35:31Z) - Choosing a Proxy Metric from Past Experiments [54.338884612982405]
多くのランダム化実験では、長期的な計量の処理効果は測定が困難または不可能であることが多い。
一般的な方法は、いくつかの短期的プロキシメトリクスを計測して、長期的メトリックを綿密に追跡することである。
ランダム化実験の同種集団において最適なプロキシメトリックを定義し構築するための新しい統計フレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-14T17:43:02Z) - Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment
Effect Estimation [137.3520153445413]
下流推論に重点を置く因果発見手法の評価において,顕著なギャップが存在する。
我々は,GFlowNetsに基づく新たな手法を含む,確立された7つの基本因果探索手法を評価する。
研究の結果,研究対象のアルゴリズムのいくつかは,多種多様なATEモードを効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2023-07-11T02:58:10Z) - B-Learner: Quasi-Oracle Bounds on Heterogeneous Causal Effects Under
Hidden Confounding [51.74479522965712]
本稿では,B-Learnerと呼ばれるメタラーナーを提案する。
我々は、その推定が有効で、鋭く、効率的であることを証明し、既存の方法よりも一般的な条件下で構成推定器に対して準オーラル特性を持つことを示した。
論文 参考訳(メタデータ) (2023-04-20T18:07:19Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - TCFimt: Temporal Counterfactual Forecasting from Individual Multiple
Treatment Perspective [50.675845725806724]
個別多面的治療の観点からの時間的対実予測の包括的枠組み(TCFimt)を提案する。
TCFimtは、選択と時間変化バイアスを軽減するためにSeq2seqフレームワークの逆タスクを構築し、比較学習ベースのブロックを設計し、混合処理効果を分離した主治療効果と因果相互作用に分解する。
提案手法は, 特定の治療法による今後の結果予測と, 最先端手法よりも最適な治療タイプとタイミングを選択する上で, 良好な性能を示す。
論文 参考訳(メタデータ) (2022-12-17T15:01:05Z) - A Reinforcement Learning Approach to Estimating Long-term Treatment
Effects [13.371851720834918]
ランダム化実験による制限は、長期効果を測定するために容易に拡張できないことである。
マルコフ過程における平均報酬を推定する強化学習(RL)アプローチを採用する。
観測された状態遷移が非定常である実世界のシナリオに動機付けられ、非定常問題のクラスのための新しいアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-10-14T05:33:19Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - Stochastic Intervention for Causal Inference via Reinforcement Learning [7.015556609676951]
因果推論の中心は介入戦略の処理効果推定である。
既存の方法はほとんどが決定論的治療に限られており、異なる治療下での結果を比較する。
介入に対する治療効果を推定するための新しい効果的な枠組みを提案する。
論文 参考訳(メタデータ) (2021-05-28T00:11:22Z) - Generalization Bounds and Representation Learning for Estimation of
Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。
我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。
これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文 参考訳(メタデータ) (2020-01-21T10:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。