論文の概要: Near-optimal Representation Learning for Linear Bandits and Linear RL
- arxiv url: http://arxiv.org/abs/2102.04132v1
- Date: Mon, 8 Feb 2021 11:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:35:22.306746
- Title: Near-optimal Representation Learning for Linear Bandits and Linear RL
- Title(参考訳): 線形帯域と線形RLの準最適表現学習
- Authors: Jiachen Hu, Xiaoyu Chen, Chi Jin, Lihong Li, Liwei Wang
- Abstract要約: 私たちはまず、次元が$d$の線形バンディットを同時に$M$で演奏する設定を考えます。
これらの包帯は、$k$-次元線型表現を共有するので、$kll d$ と $k ll M$ が成り立つ。
我々は、共有表現を利用して$tildeO(MsqrtdkT + dsqrtkMT )を後悔するサンプル効率のアルゴリズムMTLR-OFULを提案する。
- 参考スコア(独自算出の注目度): 41.33483293243257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies representation learning for multi-task linear bandits and
multi-task episodic RL with linear value function approximation. We first
consider the setting where we play $M$ linear bandits with dimension $d$
concurrently, and these bandits share a common $k$-dimensional linear
representation so that $k\ll d$ and $k \ll M$. We propose a sample-efficient
algorithm, MTLR-OFUL, which leverages the shared representation to achieve
$\tilde{O}(M\sqrt{dkT} + d\sqrt{kMT} )$ regret, with $T$ being the number of
total steps. Our regret significantly improves upon the baseline
$\tilde{O}(Md\sqrt{T})$ achieved by solving each task independently. We further
develop a lower bound that shows our regret is near-optimal when $d > M$.
Furthermore, we extend the algorithm and analysis to multi-task episodic RL
with linear value function approximation under low inherent Bellman error
\citep{zanette2020learning}. To the best of our knowledge, this is the first
theoretical result that characterizes the benefits of multi-task representation
learning for exploration in RL with function approximation.
- Abstract(参考訳): 本稿では,線形値関数近似を用いたマルチタスク線形バンディットとマルチタスクエピソディックRLの表現学習について検討する。
まず、次元 $d$ で $M$ 線形バンディットを同時演奏する設定を考えます。これらのバンディットは、共通の $k$-次元線形表現を共有し、$k\ll d$ と $k \ll M$ になります。
我々は,共有表現を利用したサンプル効率のアルゴリズムMTLR-OFULを提案し,このアルゴリズムは,合計ステップ数として$T$で,$\tilde{O}(M\sqrt{dkT} + d\sqrt{kMT} )$ regretを実現する。
我々の後悔は、各タスクを独立に解くことで達成されるベースライン $\tilde{O}(Md\sqrt{T})$ を著しく改善する。
さらに、$d > M$ のとき、後悔が最適に近いことを示す下界も展開する。
さらに,低固有ベルマン誤差 \citep{zanette2020learning} 下での線形値関数近似を用いたマルチタスクエピソディックRLにアルゴリズムと解析を拡張した。
我々の知る限り、これは関数近似を用いたRL探索におけるマルチタスク表現学習の利点を特徴付ける最初の理論的結果である。
関連論文リスト
- Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Joint Representation Training in Sequential Tasks with Shared Structure [40.1056491921582]
マルチタスク行列RLの設定のための共有行列RLアルゴリズムを提案する。
我々は$P$タスクに対する後悔を$O(PHdsqrtNH)$から$O((HdsqrtrP + HPsqrtrd)sqrtNH)$ over $N$ episodes of horizon$H$へと改善できることを示した。
論文 参考訳(メタデータ) (2022-06-24T18:10:00Z) - Nearly Minimax Optimal Reinforcement Learning with Linear Function
Approximation [25.60689712525918]
本稿では,遷移確率と報酬関数が線形な線形関数近似を用いた強化学習について検討する。
本稿では,新たなアルゴリズムLSVI-UCB$+$を提案し,$H$がエピソード長,$d$が特徴次元,$T$がステップ数である場合に,$widetildeO(HdsqrtT)$ regretboundを実現する。
論文 参考訳(メタデータ) (2022-06-23T06:04:21Z) - Nearly Minimax Algorithms for Linear Bandits with Shared Representation [86.79657561369397]
我々は、次元が$d$で、それぞれ$T$のラウンドで$M$リニアバンディットをプレイする設定を考え、これらの$M$リニアバンディットタスクは共通の$k(ll d)$次元リニア表現を共有する。
我々は$widetildeOleft(dsqrtkMT + kMsqrtTright)$ regret boundsを達成する新しいアルゴリズムを考案した。
論文 参考訳(メタデータ) (2022-03-29T15:27:13Z) - Nearly Minimax Optimal Regret for Learning Infinite-horizon
Average-reward MDPs with Linear Function Approximation [95.80683238546499]
本論文では, 線形関数近似を用いた UCRL2 アルゴリズムの拡張として見ることのできる新しいアルゴリズム UCRL2-VTR を提案する。
Bernstein 型ボーナス付き UCRL2-VTR は $tildeO(dsqrtDT)$ の後悔を達成でき、$d$ は特徴写像の次元である。
また、一致した下界$tildeOmega(dsqrtDT)$を証明し、提案したUCRL2-VTRが対数係数の最小値であることを示す。
論文 参考訳(メタデータ) (2021-02-15T02:08:39Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov
Decision Processes [91.38793800392108]
本稿では,マルコフ決定過程(MDP)の遷移確率核が線形混合モデルである線形関数近似による強化学習について検討する。
上記の線形混合 MDP に対して$textUCRL-VTR+$ という線形関数近似を用いた計算効率の良い新しいアルゴリズムを提案する。
我々の知る限り、これらは線形関数近似を持つRLのための計算効率が良く、ほぼ最小のアルゴリズムである。
論文 参考訳(メタデータ) (2020-12-15T18:56:46Z) - Logarithmic Regret for Reinforcement Learning with Linear Function
Approximation [99.59319332864129]
最近提案された2つの線形MDP仮定で対数的後悔が達成可能であることを示す。
我々の知る限り、これらは線型関数近似を持つRLに対する最初の対数的後悔境界である。
論文 参考訳(メタデータ) (2020-11-23T17:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。