論文の概要: Asymptotic Inference for Multi-Stage Stationary Treatment Policy with
High Dimensional Features
- arxiv url: http://arxiv.org/abs/2301.12553v2
- Date: Tue, 23 May 2023 03:19:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 00:33:16.992744
- Title: Asymptotic Inference for Multi-Stage Stationary Treatment Policy with
High Dimensional Features
- Title(参考訳): 高次元特徴を有する多段階定常処理政策の漸近推論
- Authors: Daiqi Gao, Yufeng Liu, Donglin Zeng
- Abstract要約: 多段階定常処理ポリシでは、同じ決定関数をステージ上で使用して、治療代行確率を規定する。
本稿では,値関数に対する逆確率重み付き推定器を拡張して評価する。
次に、政策推定器の一段階の改善を構築する。
- 参考スコア(独自算出の注目度): 5.240423125851519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic treatment rules or policies are a sequence of decision functions over
multiple stages that are tailored to individual features. One important class
of treatment policies for practice, namely multi-stage stationary treatment
policies, prescribe treatment assignment probabilities using the same decision
function over stages, where the decision is based on the same set of features
consisting of both baseline variables (e.g., demographics) and time-evolving
variables (e.g., routinely collected disease biomarkers). Although there has
been extensive literature to construct valid inference for the value function
associated with the dynamic treatment policies, little work has been done for
the policies themselves, especially in the presence of high dimensional feature
variables. We aim to fill in the gap in this work. Specifically, we first
estimate the multistage stationary treatment policy based on an augmented
inverse probability weighted estimator for the value function to increase the
asymptotic efficiency, and further apply a penalty to select important feature
variables. We then construct one-step improvement of the policy parameter
estimators. Theoretically, we show that the improved estimators are
asymptotically normal, even if nuisance parameters are estimated at a slow
convergence rate and the dimension of the feature variables increases with the
sample size. Our numerical studies demonstrate that the proposed method has
satisfactory performance in small samples, and that the performance can be
improved with a choice of the augmentation term that approximates the rewards
or minimizes the variance of the value function.
- Abstract(参考訳): 動的処理ルールやポリシーは、個々の特徴に合わせた複数の段階にわたる決定機能のシーケンスである。
多段階定常治療方針(multi-stage stationary treatment policy)は、基準変数(例えば、人口動態)と時間発展変数(例えば、定期的に収集された疾患バイオマーカー)の両方からなる同じ特徴セットに基づいて決定を行う段階において、同じ決定関数を用いた治療割り当て確率を規定する。
動的処理ポリシに関連する値関数について,有効な推論を行うための文献が多数存在するが,特に高次元特徴変数の存在下では,ポリシー自体に対する作業はほとんど行われていない。
私たちはこの仕事のギャップを埋めようとしている。
具体的には、まず、漸近効率を高めるために値関数に対する拡張逆確率重み付き推定器に基づいて多段階定常処理方針を推定し、さらに重要な特徴変数の選択にペナルティを適用する。
次に、ポリシーパラメータ推定器のワンステップ改善を行う。
理論的には,低収束率でニュアサンスパラメータを推定し,サンプルサイズに応じて特徴変数の次元が増加する場合でも,改良された推定器は漸近的に正常であることを示す。
数値実験により,提案手法は小標本において十分な性能を示し,報酬近似や値関数の分散を最小化する増補項の選択により,その性能を向上できることを示した。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Nonparametric estimation of a covariate-adjusted counterfactual
treatment regimen response curve [2.7446241148152253]
治療体制下での平均結果を柔軟に推定することは、パーソナライズされた医療にとって重要なステップである。
本研究では,スムーズな規則応答曲線関数の逆確率重み付き非パラメトリック効率推定器を提案する。
いくつかの有限サンプル特性はシミュレーションによって探索される。
論文 参考訳(メタデータ) (2023-09-28T01:46:24Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - A Minimax Learning Approach to Off-Policy Evaluation in Partially
Observable Markov Decision Processes [31.215206208622728]
部分観測可能なマルコフ決定過程(POMDP)におけるオフ・ポリティクス評価(OPE)の検討
既存の手法は、計測されていない共同創設者の存在における大きなバイアスや、連続的あるいは大規模な観測/状態空間の設定における大きなばらつきに悩まされる。
提案手法は,POMDPにおいて,目的ポリシー値と観測データ分布をリンクするブリッジ関数を導入することで,提案手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T15:52:24Z) - The Role of Lookahead and Approximate Policy Evaluation in Policy
Iteration with Linear Value Function Approximation [14.528756508275622]
線形関数近似を用いて値関数を表現する場合、最小限のルックアヘッドとマルチステップリターンが必要であることを示す。
そして、この条件が満たされると、そのような近似ポリシーを用いて得られたポリシーの有限時間性能を特徴付ける。
論文 参考訳(メタデータ) (2021-09-28T01:20:08Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。