論文の概要: Asymptotic Inference for Multi-Stage Stationary Treatment Policy with
High Dimensional Features
- arxiv url: http://arxiv.org/abs/2301.12553v1
- Date: Sun, 29 Jan 2023 22:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 16:31:46.578224
- Title: Asymptotic Inference for Multi-Stage Stationary Treatment Policy with
High Dimensional Features
- Title(参考訳): 高次元特徴を有する多段階定常処理政策の漸近推論
- Authors: Daiqi Gao, Yufeng Liu, Donglin Zeng
- Abstract要約: 動的処理ルールまたはポリシーは、個々の特徴に合わせて調整された、複数のステージ上の決定機能のシーケンスである。
値関数に対する逆確率重み付き推定器に基づく多段階定常処理ポリシーを推定する。
次に、政策推定器の一段階の改善を構築する。
- 参考スコア(独自算出の注目度): 5.240423125851519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic treatment rules or policies are a sequence of decision functions over
multiple stages that are tailored to individual features. One important class
of treatment policies for practice, namely multi-stage stationary treatment
policies, prescribe treatment assignment probabilities using the same decision
function over stages, where the decision is based on the same set of features
consisting of both baseline variables (e.g., demographics) and time-evolving
variables (e.g., routinely collected disease biomarkers). Although there has
been extensive literature to construct valid inference for the value function
associated with the dynamic treatment policies, little work has been done for
the policies themselves, especially in the presence of high dimensional feature
variables. We aim to fill in the gap in this work. Specifically, we first
estimate the multistage stationary treatment policy based on an augmented
inverse probability weighted estimator for the value function to increase the
asymptotic efficiency, and further apply a penalty to select important feature
variables. We then construct one-step improvement of the policy parameter
estimators. Theoretically, we show that the improved estimators are
asymptotically normal, even if nuisance parameters are estimated at a slow
convergence rate and the dimension of the feature variables increases
exponentially with the sample size. Our numerical studies demonstrate that the
proposed method has satisfactory performance in small samples, and that the
performance can be improved with a choice of the augmentation term that
approximates the rewards or minimizes the variance of the value function.
- Abstract(参考訳): 動的処理ルールやポリシーは、個々の特徴に合わせた複数の段階にわたる決定機能のシーケンスである。
多段階定常治療方針(multi-stage stationary treatment policy)は、基準変数(例えば、人口動態)と時間発展変数(例えば、定期的に収集された疾患バイオマーカー)の両方からなる同じ特徴セットに基づいて決定を行う段階において、同じ決定関数を用いた治療割り当て確率を規定する。
動的処理ポリシに関連する値関数について,有効な推論を行うための文献が多数存在するが,特に高次元特徴変数の存在下では,ポリシー自体に対する作業はほとんど行われていない。
私たちはこの仕事のギャップを埋めようとしている。
具体的には、まず、漸近効率を高めるために値関数に対する拡張逆確率重み付き推定器に基づいて多段階定常処理方針を推定し、さらに重要な特徴変数の選択にペナルティを適用する。
次に、ポリシーパラメータ推定器のワンステップ改善を行う。
理論上, 改良された推定器は低収束速度でニュアンスパラメータを推定しても漸近的に正常であり, 特徴変数の次元は標本サイズとともに指数関数的に増加する。
数値実験により,提案手法は小標本において十分な性能を示し,報酬近似や値関数の分散を最小化する増補項の選択により,その性能を向上できることを示した。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation。
まず、分散に明示的に依存し、弱い条件下で保持する新しい高次元確率収束保証を導出する。
さらに、文献よりも高速な速度を保証する凸集合のクラスに対して、洗練された高次元ベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - A Minimax Learning Approach to Off-Policy Evaluation in Partially
Observable Markov Decision Processes [31.215206208622728]
部分観測可能なマルコフ決定過程(POMDP)におけるオフ・ポリティクス評価(OPE)の検討
既存の手法は、計測されていない共同創設者の存在における大きなバイアスや、連続的あるいは大規模な観測/状態空間の設定における大きなばらつきに悩まされる。
提案手法は,POMDPにおいて,目的ポリシー値と観測データ分布をリンクするブリッジ関数を導入することで,提案手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T15:52:24Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z) - Statistical Inference of the Value Function for Reinforcement Learning
in Infinite Horizon Settings [0.0]
我々は、決定ポイントの数が無限大に分散する無限の地平線設定において、ポリシーの値に対する信頼区間(CI)を構築する。
最適方針が一意でない場合でも,提案したCIが名目上のカバレッジを達成することを示す。
提案手法をモバイル健康研究のデータセットに適用し, 強化学習アルゴリズムが患者の健康状態を改善するのに役立つことを確かめた。
論文 参考訳(メタデータ) (2020-01-13T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。