Fugu-MT 論文翻訳(概要): Estimation of Optimal Dynamic Treatment Assignment Rules under Policy Constraints

論文の概要: Estimation of Optimal Dynamic Treatment Assignment Rules under Policy Constraints

arxiv url: http://arxiv.org/abs/2106.05031v4
Date: Wed, 10 Apr 2024 06:47:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-11 20:08:46.387536
Title: Estimation of Optimal Dynamic Treatment Assignment Rules under Policy Constraints
Title（参考訳）: 政策制約下における最適動的処理割り当て則の推定
Authors: Shosei Sakaguchi,
Abstract要約: 個人の歴史に基づいて各段階毎の最適治療課題を導出する最適動的治療則を推定することを検討する。本稿では,各段階における処理代入問題を帰納的に解く方法と,全段階にわたる動的処理代入問題を同時に解く方法の2つを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper studies statistical decisions for dynamic treatment assignment problems. Many policies involve dynamics in their treatment assignments where treatments are sequentially assigned to individuals across multiple stages and the effect of treatment at each stage is usually heterogeneous with respect to the prior treatments, past outcomes, and observed covariates. We consider estimating an optimal dynamic treatment rule that guides the optimal treatment assignment for each individual at each stage based on the individual's history. This paper proposes an empirical welfare maximization approach in a dynamic framework. The approach estimates the optimal dynamic treatment rule using data from an experimental or quasi-experimental study. The paper proposes two estimation methods: one solves the treatment assignment problem at each stage through backward induction, and the other solves the whole dynamic treatment assignment problem simultaneously across all stages. We derive finite-sample upper bounds on worst-case average welfare regrets for the proposed methods and show $1/\sqrt{n}$-minimax convergence rates. We also modify the simultaneous estimation method to incorporate intertemporal budget/capacity constraints.
Abstract（参考訳）: 本稿では,動的処理代入問題に対する統計的決定について検討する。多くの政策は、治療が複数の段階にわたって個人に順次割り当てられ、各段階における治療の効果は通常、以前の治療、過去の結果、観察された共変量に対して不均一である。個人の歴史に基づいて各段階毎の最適治療課題を導出する最適動的治療則を推定することを検討する。本稿では,動的枠組みを用いた実証的福祉最大化手法を提案する。提案手法は,実験および準実験によるデータを用いて最適動的処理則を推定する。本稿では,各段階における処理代入問題と,各段階における動的処理代入問題とを同時に解く方法を提案する。提案手法では, 最悪の場合の平均福祉的後悔に対する有限サンプル上限を導出し, 1/\sqrt{n}$-minimax収束率を示す。また、時間的予算/容量制約を組み込むために同時推定法を変更した。

関連論文リスト

Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Uplift modeling with continuous treatments: A predict-then-optimize approach [4.132346971686944]
アップリフトモデリングの目標は、どのエンティティが治療を受けるべきかを決定することで、特定の成果を最適化するアクションを推奨することである。アップリフトモデリングは通常二項処理に重点を置いているが、現実の多くのアプリケーションは連続的に評価された処理によって特徴づけられる。本稿では,揚力モデリングにおける連続的な処理を可能にする予測型最適化フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-12T12:43:42Z)
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Robust Learning for Optimal Dynamic Treatment Regimes with Observational Data [0.0]
本研究では,各段階における各個人に対する最適な治療課題を,個人の進化史に基づいて導くための最適動的治療体制(DTR)の統計的学習について検討する。
論文参考訳（メタデータ） (2024-03-30T02:33:39Z)
Stage-Aware Learning for Dynamic Treatments [3.6923632650826486]
動的治療体制のための新しい個別化学習法を提案する。観測軌道が最適処理と完全に一致しなければならないという制約を緩和することにより,本手法はIPWE法における試料効率と安定性を大幅に改善する。
論文参考訳（メタデータ） (2023-10-30T06:35:31Z)
Inference on Optimal Dynamic Policies via Softmax Approximation [27.396891119011215]
最適な治療体制に対するソフトマックスの簡単な近似は、真に最適な治療体制に対する妥当な推測を達成できることを示す。我々の研究は、半パラメトリック推論と$g$-estimationの技法と適切な配列中央極限定理を組み合わせたものである。
論文参考訳（メタデータ） (2023-03-08T07:42:47Z)
TCFimt: Temporal Counterfactual Forecasting from Individual Multiple Treatment Perspective [50.675845725806724]
個別多面的治療の観点からの時間的対実予測の包括的枠組み(TCFimt)を提案する。 TCFimtは、選択と時間変化バイアスを軽減するためにSeq2seqフレームワークの逆タスクを構築し、比較学習ベースのブロックを設計し、混合処理効果を分離した主治療効果と因果相互作用に分解する。提案手法は, 特定の治療法による今後の結果予測と, 最先端手法よりも最適な治療タイプとタイミングを選択する上で, 良好な性能を示す。
論文参考訳（メタデータ） (2022-12-17T15:01:05Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。摂動法による政策依存推定のための非バイアス推定器を構築する。因果介入を最適化するための一般的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2022-02-25T20:25:37Z)
Estimating Optimal Infinite Horizon Dynamic Treatment Regimes via pT-Learning [2.0625936401496237]
モバイルヘルス(mHealth)技術の最近の進歩は、個人の健康状態を監視し、ジャスト・イン・タイムのパーソナライズされた介入を提供する効果的な方法を提供する。 mHealthテクノロジーの実用化は、最適な動的治療体制を学習する上で、既存の方法論に固有の課題を提起する。本稿では,決定論的とスパース政策モデルの間で適応的に調整された最適条件を推定する近時学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-20T18:38:22Z)
State Augmented Constrained Reinforcement Learning: Overcoming the Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文参考訳（メタデータ） (2021-02-23T21:07:35Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
DTR Bandit: Learning to Make Response-Adaptive Decisions With Low Regret [59.81290762273153]
動的治療体制 (DTR) はパーソナライズされ適応された多段階の治療計画であり、治療決定を個人の初期特徴に適応させ、その後の各段階における中間結果と特徴に適応させる。本稿では,探索と搾取を慎重にバランスさせることで,遷移モデルと報酬モデルが線形である場合に,速度-最適後悔を実現する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-06T13:03:42Z)
Multicategory Angle-based Learning for Estimating Optimal Dynamic Treatment Regimes with Censored Data [12.499787110182632]
最適な治療体制(DTR)は、長期的な利益を最大化するための一連の決定規則から構成される。本稿では,マルチカテゴリ処理フレームワークを用いて,最適DTRをターゲットとした新しい角度ベースアプローチを提案する。本稿では,条件付き生存関数の最大化の観点から,提案手法が競合手法より優れていることを示す。
論文参考訳（メタデータ） (2020-01-14T05:19:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。