論文の概要: Sample-Efficient Reinforcement Learning for Linearly-Parameterized MDPs
- arxiv url: http://arxiv.org/abs/2105.14016v1
- Date: Fri, 28 May 2021 17:49:39 GMT
- Title: Sample-Efficient Reinforcement Learning for Linearly-Parameterized MDPs
- Title(参考訳): 生成モデルを用いた線形パラメータmdpのサンプル効率強化学習
- Authors: Bingyan Wang, Yuling Yan, Jianqing Fan
- Abstract要約: 本稿では,一連の状態対応機能を有するマルコフ決定プロセス(MDP)について考察する。
- Abstract: The curse of dimensionality is a widely known issue in reinforcement learning
(RL). In the tabular setting where the state space $\mathcal{S}$ and the action
space $\mathcal{A}$ are both finite, to obtain a nearly optimal policy with
sampling access to a generative model, the minimax optimal sample complexity
scales linearly with $|\mathcal{S}|\times|\mathcal{A}|$, which can be
prohibitively large when $\mathcal{S}$ or $\mathcal{A}$ is large. This paper
considers a Markov decision process (MDP) that admits a set of state-action
features, which can linearly express (or approximate) its probability
transition kernel. We show that a model-based approach (resp.$~$Q-learning)
provably learns an $\varepsilon$-optimal policy (resp.$~$Q-function) with high
probability as soon as the sample size exceeds the order of
(resp.$~$$\frac{K}{(1-\gamma)^{4}\varepsilon^{2}}$), up to some logarithmic
factor. Here $K$ is the feature dimension and $\gamma\in(0,1)$ is the discount
factor of the MDP. Both sample complexity bounds are provably tight, and our
result for the model-based approach matches the minimax lower bound. Our
results show that for arbitrarily large-scale MDP, both the model-based
approach and Q-learning are sample-efficient when $K$ is relatively small, and
hence the title of this paper.
- Abstract(参考訳): 次元性の呪いは強化学習(RL)において広く知られている問題である。
状態空間 $\mathcal{s}$ と作用空間 $\mathcal{a}$ がともに有限であるような表設定において、生成モデルへのアクセスをサンプリングしてほぼ最適なポリシーを得るため、ミニマックス最適標本複雑性は$|\mathcal{s}|\times|\mathcal{a}|$ と線形にスケールする。
モデルに基づくアプローチ(resp.$~$Q-learning)は、サンプルサイズが$\frac{K}{(1-\gamma)^{3}\varepsilon^{2}}$(resp.$~$\frac{K}{(1-\gamma)^{4}\varepsilon^{2}}$(resp.$~$\frac{K}{(1-\gamma)^{4}\varepsilon^{2}}$)を超えると、高い確率で$\varepsilon$-optimal Policy(resp.$~$Q-function)を確実に学習することを示す。
この結果から, モデルベースアプローチとQラーニングは, 比較的K$が小さい場合のサンプル効率が向上し, 本論文の題名となった。
