論文の概要: Experimenting on Markov Decision Processes with Local Treatments
- arxiv url: http://arxiv.org/abs/2407.19618v1
- Date: Mon, 29 Jul 2024 00:41:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 15:35:33.601072
- Title: Experimenting on Markov Decision Processes with Local Treatments
- Title(参考訳): 局所処理によるマルコフ決定過程の実験
- Authors: Shuze Chen, David Simchi-Levi, Chonghuan Wang,
- Abstract要約: 本稿では,マルコフ決定過程 (MDPs) を用いた局所処理実験について検討する。
局所構造を利用して平均処理効果の推論効率を向上させることに注力する。
本稿では, 局所的な処理構造を利用して, 処理方針の影響を受けない状態の情報を共有する分散低減手法を提案する。
- 参考スコア(独自算出の注目度): 13.182388658918502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As service systems grow increasingly complex and dynamic, many interventions become localized, available and taking effect only in specific states. This paper investigates experiments with local treatments on a widely-used class of dynamic models, Markov Decision Processes (MDPs). Particularly, we focus on utilizing the local structure to improve the inference efficiency of the average treatment effect. We begin by demonstrating the efficiency of classical inference methods, including model-based estimation and temporal difference learning under a fixed policy, as well as classical A/B testing with general treatments. We then introduce a variance reduction technique that exploits the local treatment structure by sharing information for states unaffected by the treatment policy. Our new estimator effectively overcomes the variance lower bound for general treatments while matching the more stringent lower bound incorporating the local treatment structure. Furthermore, our estimator can optimally achieve a linear reduction with the number of test arms for a major part of the variance. Finally, we explore scenarios with perfect knowledge of the control arm and design estimators that further improve inference efficiency.
- Abstract(参考訳): サービスシステムがますます複雑でダイナミックになるにつれて、多くの介入が局所化され、利用可能になり、特定の状態に限られる。
本稿では,マルコフ決定過程 (MDP) を用いた局所処理実験について検討する。
特に,局所構造を利用して平均処理効果の推論効率を向上させることに焦点を当てた。
まず、モデルに基づく推定や時間差分学習などの古典的推論手法の効率性や、一般的な治療による古典的A/Bテストの実施から始める。
次に, 処理方針の影響を受けない状態の情報を共有することで, 局所的な処理構造を利用した分散低減手法を提案する。
我々の新しい推定器は局所的な処理構造を組み込んだより厳密な下界をマッチングしながら、一般的な処理に対する分散下界を効果的に克服する。
さらに, 推定器は, 分散の大きな部分に対して, 試験アーム数の線形化を最適に行うことができる。
最後に、制御アームの完全な知識と推論効率をさらに向上させる設計推定器を用いてシナリオを探索する。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - Stage-Aware Learning for Dynamic Treatments [4.033641609534417]
動的治療体制のための新しい個別化学習法を提案する。
我々は、観察された治療軌跡と、決定段階にわたって最適な状態から得られるものとの整合性に重点を置いている。
観測軌道が最適処理と完全に一致しなければならないという制約を緩和することにより,本手法は逆確率重み付け法のサンプル効率と安定性を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-30T06:35:31Z) - TCFimt: Temporal Counterfactual Forecasting from Individual Multiple
Treatment Perspective [50.675845725806724]
個別多面的治療の観点からの時間的対実予測の包括的枠組み(TCFimt)を提案する。
TCFimtは、選択と時間変化バイアスを軽減するためにSeq2seqフレームワークの逆タスクを構築し、比較学習ベースのブロックを設計し、混合処理効果を分離した主治療効果と因果相互作用に分解する。
提案手法は, 特定の治療法による今後の結果予測と, 最先端手法よりも最適な治療タイプとタイミングを選択する上で, 良好な性能を示す。
論文 参考訳(メタデータ) (2022-12-17T15:01:05Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - Stochastic Intervention for Causal Inference via Reinforcement Learning [7.015556609676951]
因果推論の中心は介入戦略の処理効果推定である。
既存の方法はほとんどが決定論的治療に限られており、異なる治療下での結果を比較する。
介入に対する治療効果を推定するための新しい効果的な枠組みを提案する。
論文 参考訳(メタデータ) (2021-05-28T00:11:22Z) - Weighting-Based Treatment Effect Estimation via Distribution Learning [14.438302755258547]
本研究では,処理効果推定のための分布学習に基づく重み付け手法を開発した。
提案手法は,最先端の重み付けのみのベンチマーク手法よりも優れている。
2倍のロス率推定フレームワークの下では、その優位性を維持している。
論文 参考訳(メタデータ) (2020-12-26T20:15:44Z) - Learning Continuous Treatment Policy and Bipartite Embeddings for
Matching with Heterogeneous Causal Effects [8.525061716196424]
現在の方法では、単一の結果次元の処理効果に基づいて二項のイエスまたはノーの決定を行う。
本稿では, パラメトリザブルモデルとしての処理の有効性を定式化し, 様々な処理強度と複雑さにまで拡張することを提案する。
深層学習を利用して, 1次元の処理を非現実的に予測する代わりに, 所望の総体距離空間を最適化する。
論文 参考訳(メタデータ) (2020-04-21T01:36:20Z) - Estimating the Effects of Continuous-valued Interventions using
Generative Adversarial Networks [103.14809802212535]
我々は,連続的評価介入の効果を推定する問題に対処するため,GAN(Generative Adversarial Network)フレームワークを構築した。
我々のモデルであるSCIGANは柔軟であり、いくつかの異なる継続的な介入に対する対実的な結果の同時推定が可能である。
継続的な介入に移行することによって生じる課題に対処するために、差別者のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T18:46:21Z) - Generalization Bounds and Representation Learning for Estimation of
Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。
我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。
これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文 参考訳(メタデータ) (2020-01-21T10:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。