論文の概要: Characterizing Uniform Convergence in Offline Policy Evaluation via
model-based approach: Offline Learning, Task-Agnostic and Reward-Free
- arxiv url: http://arxiv.org/abs/2105.06029v1
- Date: Thu, 13 May 2021 01:36:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 14:13:33.680611
- Title: Characterizing Uniform Convergence in Offline Policy Evaluation via
model-based approach: Offline Learning, Task-Agnostic and Reward-Free
- Title(参考訳): モデルベースアプローチによるオフラインポリシー評価における一様収束の特徴:オフライン学習、タスク非依存、報酬フリー
- Authors: Ming Yin, Yu-Xiang Wang
- Abstract要約: オフライン政策評価問題における一様収束の統計的限界(一様OPEの略)とモデルに基づくMDP設定手法について検討する。
本研究の主な成果は,MPPの長期的最適政策に対する$tildeO(H2/d_mepsilon2)$のエピソード複雑性を確立することである。
- 参考スコア(独自算出の注目度): 34.54294677335518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the statistical limits of uniform convergence for offline policy
evaluation (OPE) problems (uniform OPE for short) with model-based methods
under episodic MDP setting. Uniform OPE $\sup_\Pi|Q^\pi-\hat{Q}^\pi|<\epsilon$
(initiated by Yin et al. 2021) is a stronger measure than the point-wise (fixed
policy) OPE and ensures offline policy learning when $\Pi$ contains all
policies (we call it global policy class). In this paper, we establish an
$\Omega(H^2 S/d_m\epsilon^2)$ lower bound (over model-based family) for the
global uniform OPE, where $d_m$ is the minimal state-action distribution
induced by the behavior policy. The order $S/d_m\epsilon^2$ reveals global
uniform OPE task is intrinsically harder than offline policy learning due to
the extra $S$ factor. Next, our main result establishes an episode complexity
of $\tilde{O}(H^2/d_m\epsilon^2)$ for \emph{local} uniform convergence that
applies to all \emph{near-empirically optimal} policies for the MDPs with
\emph{stationary} transition. The result implies the optimal sample complexity
for offline learning and separates local uniform OPE from the global case.
Paramountly, the model-based method combining with our new analysis technique
(singleton absorbing MDP) can be adapted to the new settings: offline
task-agnostic and the offline reward-free with optimal complexity
$\tilde{O}(H^2\log(K)/d_m\epsilon^2)$ ($K$ is the number of tasks) and
$\tilde{O}(H^2S/d_m\epsilon^2)$ respectively, which provides a unified
framework for simultaneously solving different offline RL problems.
- Abstract(参考訳): 本研究では, オフライン政策評価(OPE)問題に対する一様収束の統計的限界を, エピソードMDP設定下でのモデルベース手法を用いて検討する。
一様 OPE $\sup_\Pi|Q^\pi-\hat{Q}^\pi|<\epsilon$ (Yinらにより開始)。
2021)は、point-wise (fixed policy) opeよりも強力な尺度であり、$\pi$がすべてのポリシーを含んでいる場合のオフラインポリシー学習を保証する。
本稿では,大域的統一 OPE に対して$\Omega(H^2 S/d_m\epsilon^2)$ lower bound (over model-based family) を確立する。
S/d_m\epsilon^2$の順序から、グローバルな均一なOPEタスクは、S$の余分な要素のため、本質的にオフラインポリシー学習よりも難しいことが分かる。
次に、本研究では、mdp の変遷を持つ mdp に対する全ての \emph{near-empirically optimal} ポリシーに適用する一様収束に対して、$\tilde{o}(h^2/d_m\epsilon^2)$ のエピソード複雑性を確立する。
その結果、オフライン学習に最適なサンプル複雑性が示され、グローバルケースから局所均一OPEを分離する。
オフラインタスク非依存と、最適な複雑性を伴うオフライン報酬フリー $\tilde{o}(h^2\log(k)/d_m\epsilon^2)$ ($k$ is the number of tasks)と$\tilde{o}(h^2s/d_m\epsilon^2)$ それぞれ異なるオフラインrl問題を解決するための統一フレームワークを提供する。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Span-Based Optimal Sample Complexity for Weakly Communicating and General Average Reward MDPs [6.996002801232415]
平均回帰マルコフ決定過程(MDP)において,$varepsilon$-optimal Policyを生成モデルで学習する際のサンプル複雑性について検討した。
MDP を弱通信するためには、$widetildeO(SAfracHvarepsilon2 )$, $H$ は最適ポリシーのバイアス関数のスパンであり、$SA$ は状態作用空間の濃度である。
論文 参考訳(メタデータ) (2024-03-18T04:52:11Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Towards Instance-Optimal Offline Reinforcement Learning with Pessimism [34.54294677335518]
我々は、未知マルコフ決定過程(MDP)における報酬最大化ポリシーの学習を目標とするオフライン強化学習(オフラインRL)問題について検討する。
本研究では、適応悲観的値反復法(APVI)アルゴリズムを分析し、[Oleft(sum_h=1Hsum_s_h,a_hdpistar_h(s_h,a_h)sqrtfracmathrmmathrmVar_]とほぼ一致する準最適上限を導出する。
論文 参考訳(メタデータ) (2021-10-17T01:21:52Z) - Policy Finetuning: Bridging Sample-Efficient Offline and Online
Reinforcement Learning [59.02541753781001]
本稿では、学習者が「参照ポリシー」にさらにアクセス可能なオンラインRLの政策微調整に関する理論的研究を開始する。
我々はまず、$varepsilon$$widetildeO(H3SCstar/varepsilon2)$のエピソード内で、ほぼ最適ポリシーを求める鋭いオフライン還元アルゴリズムを設計する。
次に、Omega(H3SminCstar, A/varepsilon2)$のサンプル複雑性を、任意のポリシー微調整アルゴリズムに対して低いバウンドで設定します。
論文 参考訳(メタデータ) (2021-06-09T08:28:55Z) - Nearly Horizon-Free Offline Reinforcement Learning [97.36751930393245]
S$状態、$A$アクション、計画的地平$H$で、エピソードな時間同質なMarkov決定プロセスに関するオフライン強化学習を再考する。
経験的MDPを用いた評価と計画のための,約$H$自由なサンプル複雑性境界の最初の集合を得る。
論文 参考訳(メタデータ) (2021-03-25T18:52:17Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z) - Near-Optimal Provable Uniform Convergence in Offline Policy Evaluation
for Reinforcement Learning [43.61029925616256]
強化学習(RL)におけるオフラインポリシー評価は、実生活アプリケーションにRLを適用するための重要なステップである。
ポリシクラス$Pi$ -- OPEの統一収束を同時に評価することで、この問題に対処する。
以上の結果から,モデルベースプランニングにより,$widetildeO(H3/d_mepsilon2)$の最適なエピソード複雑性を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-07-07T19:44:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。