論文の概要: Robust Batch Policy Learning in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2011.04185v4
- Date: Wed, 10 Nov 2021 04:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 00:44:43.731607
- Title: Robust Batch Policy Learning in Markov Decision Processes
- Title(参考訳): マルコフ決定過程におけるロバストバッチ政策学習
- Authors: Zhengling Qi, Peng Liao
- Abstract要約: マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the offline data-driven sequential decision making problem in the
framework of Markov decision process (MDP). In order to enhance the
generalizability and adaptivity of the learned policy, we propose to evaluate
each policy by a set of the average rewards with respect to distributions
centered at the policy induced stationary distribution. Given a pre-collected
dataset of multiple trajectories generated by some behavior policy, our goal is
to learn a robust policy in a pre-specified policy class that can maximize the
smallest value of this set. Leveraging the theory of semi-parametric
statistics, we develop a statistically efficient policy learning method for
estimating the de ned robust optimal policy. A rate-optimal regret bound up to
a logarithmic factor is established in terms of total decision points in the
dataset.
- Abstract(参考訳): 我々は,markov decision process (mdp) の枠組みを用いてオフラインデータ駆動逐次意思決定問題を検討する。
学習した政策の一般化性と適応性を高めるため,政策誘導定常分布を中心とした分布に対する平均報酬のセットを用いて各政策を評価することを提案する。
ある行動ポリシーによって生成される複数の軌跡の事前収集データセットを考えると、我々の目標は、このセットの最小値を最大化できる事前指定ポリシークラスで堅牢なポリシーを学ぶことである。
半パラメトリック統計理論を活用し,de nedロバスト最適政策推定のための統計的に効率的な政策学習法を開発した。
対数因子に束縛されたレート最適の後悔は、データセットの全決定点の観点で確立される。
関連論文リスト
- Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Counterfactual Learning with General Data-generating Policies [3.441021278275805]
我々は、コンテキスト帯域設定における完全なサポートと不足したサポートロギングポリシーのクラスのためのOPE手法を開発した。
サンプルサイズが大きくなるにつれて,本手法の予測値が実測値の真の性能に収束することが証明された。
論文 参考訳(メタデータ) (2022-12-04T21:07:46Z) - Randomized Policy Optimization for Optimal Stopping [0.0]
本稿では,ランダム化線形ポリシーに基づく最適停止手法を提案する。
提案手法は最先端手法を著しく上回り得ることを示す。
論文 参考訳(メタデータ) (2022-03-25T04:33:15Z) - ReVar: Strengthening Policy Evaluation via Reduced Variance Sampling [10.925914554822343]
我々は木構造MDPのクラス内で最適なデータ収集の理論を開発する。
我々はReVarがオラクル戦略に匹敵する平均二乗誤差で政策評価につながることを実証的に検証した。
論文 参考訳(メタデータ) (2022-03-09T03:41:15Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Batch Policy Learning in Average Reward Markov Decision Processes [3.9023554886892438]
モバイル健康アプリケーションに動機づけられた我々は、長期的な平均報酬を最大化する政策を学ぶことに集中する。
パラメータ化されたポリシークラスで最適ポリシーを計算する最適化アルゴリズムを開発した。
推定ポリシのパフォーマンスは、ポリシークラスにおける最適平均報酬と推定ポリシの平均報酬との差によって測定される。
論文 参考訳(メタデータ) (2020-07-23T03:28:14Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。