論文の概要: Characterizing Uniform Convergence in Offline Policy Evaluation via
model-based approach: Offline Learning, Task-Agnostic and Reward-Free
- arxiv url: http://arxiv.org/abs/2105.06029v1
- Date: Thu, 13 May 2021 01:36:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 14:13:33.680611
- Title: Characterizing Uniform Convergence in Offline Policy Evaluation via
model-based approach: Offline Learning, Task-Agnostic and Reward-Free
- Title(参考訳): モデルベースアプローチによるオフラインポリシー評価における一様収束の特徴:オフライン学習、タスク非依存、報酬フリー
- Authors: Ming Yin, Yu-Xiang Wang
- Abstract要約: オフライン政策評価問題における一様収束の統計的限界(一様OPEの略)とモデルに基づくMDP設定手法について検討する。
- 参考スコア(独自算出の注目度): 34.54294677335518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the statistical limits of uniform convergence for offline policy
evaluation (OPE) problems (uniform OPE for short) with model-based methods
under episodic MDP setting. Uniform OPE $\sup_\Pi|Q^\pi-\hat{Q}^\pi|<\epsilon$
(initiated by Yin et al. 2021) is a stronger measure than the point-wise (fixed
policy) OPE and ensures offline policy learning when $\Pi$ contains all
policies (we call it global policy class). In this paper, we establish an
$\Omega(H^2 S/d_m\epsilon^2)$ lower bound (over model-based family) for the
global uniform OPE, where $d_m$ is the minimal state-action distribution
induced by the behavior policy. The order $S/d_m\epsilon^2$ reveals global
uniform OPE task is intrinsically harder than offline policy learning due to
the extra $S$ factor. Next, our main result establishes an episode complexity
of $\tilde{O}(H^2/d_m\epsilon^2)$ for \emph{local} uniform convergence that
applies to all \emph{near-empirically optimal} policies for the MDPs with
\emph{stationary} transition. The result implies the optimal sample complexity
for offline learning and separates local uniform OPE from the global case.
Paramountly, the model-based method combining with our new analysis technique
(singleton absorbing MDP) can be adapted to the new settings: offline
task-agnostic and the offline reward-free with optimal complexity
$\tilde{O}(H^2\log(K)/d_m\epsilon^2)$ ($K$ is the number of tasks) and
$\tilde{O}(H^2S/d_m\epsilon^2)$ respectively, which provides a unified
framework for simultaneously solving different offline RL problems.
- Abstract(参考訳): 本研究では, オフライン政策評価(OPE)問題に対する一様収束の統計的限界を, エピソードMDP設定下でのモデルベース手法を用いて検討する。
一様 OPE $\sup_\Pi|Q^\pi-\hat{Q}^\pi|<\epsilon$ (Yinらにより開始)。
2021)は、point-wise (fixed policy) opeよりも強力な尺度であり、$\pi$がすべてのポリシーを含んでいる場合のオフラインポリシー学習を保証する。
本稿では,大域的統一 OPE に対して$\Omega(H^2 S/d_m\epsilon^2)$ lower bound (over model-based family) を確立する。
次に、本研究では、mdp の変遷を持つ mdp に対する全ての \emph{near-empirically optimal} ポリシーに適用する一様収束に対して、$\tilde{o}(h^2/d_m\epsilon^2)$ のエピソード複雑性を確立する。
オフラインタスク非依存と、最適な複雑性を伴うオフライン報酬フリー $\tilde{o}(h^2\log(k)/d_m\epsilon^2)$ ($k$ is the number of tasks)と$\tilde{o}(h^2s/d_m\epsilon^2)$ それぞれ異なるオフラインrl問題を解決するための統一フレームワークを提供する。
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Span-Based Optimal Sample Complexity for Weakly Communicating and General Average Reward MDPs [6.996002801232415]
平均回帰マルコフ決定過程(MDP)において,$varepsilon$-optimal Policyを生成モデルで学習する際のサンプル複雑性について検討した。
MDP を弱通信するためには、$widetildeO(SAfracHvarepsilon2 )$, $H$ は最適ポリシーのバイアス関数のスパンであり、$SA$ は状態作用空間の濃度である。
論文 参考訳(メタデータ) (2024-03-18T04:52:11Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Towards Instance-Optimal Offline Reinforcement Learning with Pessimism [34.54294677335518]
論文 参考訳(メタデータ) (2021-10-17T01:21:52Z) - Policy Finetuning: Bridging Sample-Efficient Offline and Online
Reinforcement Learning [59.02541753781001]
次に、Omega(H3SminCstar, A/varepsilon2)$のサンプル複雑性を、任意のポリシー微調整アルゴリズムに対して低いバウンドで設定します。
論文 参考訳(メタデータ) (2021-06-09T08:28:55Z) - Nearly Horizon-Free Offline Reinforcement Learning [97.36751930393245]
論文 参考訳(メタデータ) (2021-03-25T18:52:17Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z) - Near-Optimal Provable Uniform Convergence in Offline Policy Evaluation
for Reinforcement Learning [43.61029925616256]
ポリシクラス$Pi$ -- OPEの統一収束を同時に評価することで、この問題に対処する。
論文 参考訳(メタデータ) (2020-07-07T19:44:14Z)