論文の概要: Near-optimal Representation Learning for Linear Bandits and Linear RL
- Date: Mon, 8 Feb 2021 11:11:53 GMT
- Title: Near-optimal Representation Learning for Linear Bandits and Linear RL
- Title(参考訳): 線形帯域と線形RLの準最適表現学習
- Authors: Jiachen Hu, Xiaoyu Chen, Chi Jin, Lihong Li, Liwei Wang
- Abstract要約: 私たちはまず、次元が$d$の線形バンディットを同時に$M$で演奏する設定を考えます。
これらの包帯は、$k$-次元線型表現を共有するので、$kll d$ と $k ll M$ が成り立つ。
我々は、共有表現を利用して$tildeO(MsqrtdkT + dsqrtkMT )を後悔するサンプル効率のアルゴリズムMTLR-OFULを提案する。
- Abstract: This paper studies representation learning for multi-task linear bandits and
multi-task episodic RL with linear value function approximation. We first
consider the setting where we play $M$ linear bandits with dimension $d$
concurrently, and these bandits share a common $k$-dimensional linear
representation so that $k\ll d$ and $k \ll M$. We propose a sample-efficient
algorithm, MTLR-OFUL, which leverages the shared representation to achieve
$\tilde{O}(M\sqrt{dkT} + d\sqrt{kMT} )$ regret, with $T$ being the number of
total steps. Our regret significantly improves upon the baseline
$\tilde{O}(Md\sqrt{T})$ achieved by solving each task independently. We further
develop a lower bound that shows our regret is near-optimal when $d > M$.
Furthermore, we extend the algorithm and analysis to multi-task episodic RL
with linear value function approximation under low inherent Bellman error
\citep{zanette2020learning}. To the best of our knowledge, this is the first
theoretical result that characterizes the benefits of multi-task representation
learning for exploration in RL with function approximation.
- Abstract(参考訳): 本稿では,線形値関数近似を用いたマルチタスク線形バンディットとマルチタスクエピソディックRLの表現学習について検討する。
まず、次元 $d$ で $M$ 線形バンディットを同時演奏する設定を考えます。これらのバンディットは、共通の $k$-次元線形表現を共有し、$k\ll d$ と $k \ll M$ になります。
我々は,共有表現を利用したサンプル効率のアルゴリズムMTLR-OFULを提案し,このアルゴリズムは,合計ステップ数として$T$で,$\tilde{O}(M\sqrt{dkT} + d\sqrt{kMT} )$ regretを実現する。
我々の後悔は、各タスクを独立に解くことで達成されるベースライン $\tilde{O}(Md\sqrt{T})$ を著しく改善する。
さらに、$d > M$ のとき、後悔が最適に近いことを示す下界も展開する。
さらに,低固有ベルマン誤差 \citep{zanette2020learning} 下での線形値関数近似を用いたマルチタスクエピソディックRLにアルゴリズムと解析を拡張した。
