論文の概要: Asymptotic Inference for Multi-Stage Stationary Treatment Policy with Variable Selection
- arxiv url: http://arxiv.org/abs/2301.12553v3
- Date: Wed, 08 Jan 2025 16:02:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:53:56.252531
- Title: Asymptotic Inference for Multi-Stage Stationary Treatment Policy with Variable Selection
- Title(参考訳): 可変選択による多段階定常処理政策の漸近推論
- Authors: Daiqi Gao, Yufeng Liu, Donglin Zeng,
- Abstract要約: 動的治療体制またはポリシーは、個々の特徴に合わせた複数の段階にわたる決定機能の連続である。
実際の治療方針の1つの重要なクラス、すなわち多段階定常治療政策は、複数の段階にわたって同じ決定関数を用いて治療課題を規定する。
動的治療ポリシーに関連する値関数に対する有効な推論を構築することについては、広範な文献があるが、ポリシー自体に焦点をあてる研究はほとんどない。
- 参考スコア(独自算出の注目度): 13.202945240520986
- License:
- Abstract: Dynamic treatment regimes or policies are a sequence of decision functions over multiple stages that are tailored to individual features. One important class of treatment policies in practice, namely multi-stage stationary treatment policies, prescribes treatment assignment probabilities using the same decision function across stages, where the decision is based on the same set of features consisting of time-evolving variables (e.g., routinely collected disease biomarkers). Although there has been extensive literature on constructing valid inference for the value function associated with dynamic treatment policies, little work has focused on the policies themselves, especially in the presence of high-dimensional feature variables. We aim to fill the gap in this work. Specifically, we first estimate the multi-stage stationary treatment policy using an augmented inverse probability weighted estimator for the value function to increase asymptotic efficiency, and further apply a penalty to select important feature variables. We then construct one-step improvements of the policy parameter estimators for valid inference. Theoretically, we show that the improved estimators are asymptotically normal, even if nuisance parameters are estimated at a slow convergence rate and the dimension of the feature variables increases with the sample size. Our numerical studies demonstrate that the proposed method estimates a sparse policy with a near-optimal value function and conducts valid inference for the policy parameters.
- Abstract(参考訳): 動的治療体制またはポリシーは、個々の特徴に合わせた複数の段階にわたる決定機能の連続である。
実際に行われている治療方針の1つの重要なクラス、すなわち、多段階定常治療ポリシーは、時間進化変数(例えば、定期的に収集される疾患バイオマーカー)からなる同じ特徴のセットに基づいて、同じ決定関数を用いて治療課題確率を規定する。
動的処理ポリシに関連する値関数の有効な推論に関する文献が多数存在するが、特に高次元特徴変数の存在において、ポリシー自体に焦点を絞った研究はほとんどない。
私たちはこの仕事のギャップを埋めることを目指しています。
具体的には、まず、拡張逆確率重み付き値関数推定器を用いて多段階定常処理ポリシーを推定し、漸近的効率を向上させるとともに、重要な特徴変数の選択にペナルティを適用する。
次に、有効な推論のためのポリシーパラメータ推定器の一段階の改善を構築する。
理論的には、改良された推定器は、たとえニュアンスパラメータが緩やかな収束速度で推定され、特徴変数の次元がサンプルサイズとともに増加するとしても、漸近的に正常であることを示す。
提案手法は, ほぼ最適値関数を持つスパースポリシを推定し, 政策パラメータの妥当な推論を行うことを示す。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation。
まず、分散に明示的に依存し、弱い条件下で保持する新しい高次元確率収束保証を導出する。
さらに、文献よりも高速な速度を保証する凸集合のクラスに対して、洗練された高次元ベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - A Minimax Learning Approach to Off-Policy Evaluation in Partially
Observable Markov Decision Processes [31.215206208622728]
部分観測可能なマルコフ決定過程(POMDP)におけるオフ・ポリティクス評価(OPE)の検討
既存の手法は、計測されていない共同創設者の存在における大きなバイアスや、連続的あるいは大規模な観測/状態空間の設定における大きなばらつきに悩まされる。
提案手法は,POMDPにおいて,目的ポリシー値と観測データ分布をリンクするブリッジ関数を導入することで,提案手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T15:52:24Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z) - Statistical Inference of the Value Function for Reinforcement Learning
in Infinite Horizon Settings [0.0]
我々は、決定ポイントの数が無限大に分散する無限の地平線設定において、ポリシーの値に対する信頼区間(CI)を構築する。
最適方針が一意でない場合でも,提案したCIが名目上のカバレッジを達成することを示す。
提案手法をモバイル健康研究のデータセットに適用し, 強化学習アルゴリズムが患者の健康状態を改善するのに役立つことを確かめた。
論文 参考訳(メタデータ) (2020-01-13T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。