論文の概要: Reward-Mixing MDPs with a Few Latent Contexts are Learnable
- arxiv url: http://arxiv.org/abs/2210.02594v1
- Date: Wed, 5 Oct 2022 22:52:00 GMT
- Title: Reward-Mixing MDPs with a Few Latent Contexts are Learnable
- Title(参考訳): 遅延文脈の少ないリワードミキシングMDPを学習可能
- Authors: Jeongyeol Kwon, Yonathan Efroni, Constantine Caramanis, Shie Mannor
- Abstract要約: 報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
- Abstract: We consider episodic reinforcement learning in reward-mixing Markov decision
processes (RMMDPs): at the beginning of every episode nature randomly picks a
latent reward model among $M$ candidates and an agent interacts with the MDP
throughout the episode for $H$ time steps. Our goal is to learn a near-optimal
policy that nearly maximizes the $H$ time-step cumulative rewards in such a
model. Previous work established an upper bound for RMMDPs for $M=2$. In this
work, we resolve several open questions remained for the RMMDP model. For an
arbitrary $M\ge2$, we provide a sample-efficient
algorithm--$\texttt{EM}^2$--that outputs an $\epsilon$-optimal policy using
$\tilde{O} \left(\epsilon^{-2} \cdot S^d A^d \cdot \texttt{poly}(H, Z)^d
\right)$ episodes, where $S, A$ are the number of states and actions
respectively, $H$ is the time-horizon, $Z$ is the support size of reward
distributions and $d=\min(2M-1,H)$. Our technique is a higher-order extension
of the method-of-moments based approach, nevertheless, the design and analysis
of the \algname algorithm requires several new ideas beyond existing
techniques. We also provide a lower bound of $(SA)^{\Omega(\sqrt{M})} /
\epsilon^{2}$ for a general instance of RMMDP, supporting that super-polynomial
sample complexity in $M$ is necessary.
- Abstract(参考訳): 我々は、報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習を考察し、各エピソードの始めに、M$候補のうち潜在報酬モデルをランダムに選択し、エージェントはエピソード全体を通してMDPと対話し、時間ステップを$H$とする。
任意の$m\ge2$に対して、サンプル効率の良いアルゴリズム--$\texttt{em}^2$-を提供し、$\tilde{o} \left(\epsilon^{-2} \cdot s^d a^d \cdot \texttt{poly}(h, z)^d \right)$ episodes を用いて$\epsilon$-optimalポリシーを出力する。
提案手法はモーメント法に基づく手法の高次拡張であるが, \algname アルゴリズムの設計と解析には,既存の手法を超越した新たなアイデアがいくつか必要である。
また、RMMDP の一般インスタンスに対して $(SA)^{\Omega(\sqrt{M})} / \epsilon^{2}$ という下界も提供し、M$ の超ポリノミカルサンプルの複雑さが必要とされることを裏付ける。
