論文の概要: Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation
- arxiv url: http://arxiv.org/abs/2110.06394v1
- Date: Tue, 12 Oct 2021 23:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 12:54:09.611761
- Title: Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation
- Title(参考訳): リニア関数近似を用いたリワードフリーモデルベース強化学習
- Authors: Weitong Zhang and Dongruo Zhou and Quanquan Gu
- Abstract要約: エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
- 参考スコア(独自算出の注目度): 92.99933928528797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the model-based reward-free reinforcement learning with linear
function approximation for episodic Markov decision processes (MDPs). In this
setting, the agent works in two phases. In the exploration phase, the agent
interacts with the environment and collects samples without the reward. In the
planning phase, the agent is given a specific reward function and uses samples
collected from the exploration phase to learn a good policy. We propose a new
provably efficient algorithm, called UCRL-RFE under the Linear Mixture MDP
assumption, where the transition probability kernel of the MDP can be
parameterized by a linear function over certain feature mappings defined on the
triplet of state, action, and next state. We show that to obtain an
$\epsilon$-optimal policy for arbitrary reward function, UCRL-RFE needs to
sample at most $\tilde O(H^5d^2\epsilon^{-2})$ episodes during the exploration
phase. Here, $H$ is the length of the episode, $d$ is the dimension of the
feature mapping. We also propose a variant of UCRL-RFE using Bernstein-type
bonus and show that it needs to sample at most $\tilde O(H^4d(H +
d)\epsilon^{-2})$ to achieve an $\epsilon$-optimal policy. By constructing a
special class of linear Mixture MDPs, we also prove that for any reward-free
algorithm, it needs to sample at least $\tilde \Omega(H^2d\epsilon^{-2})$
episodes to obtain an $\epsilon$-optimal policy. Our upper bound matches the
lower bound in terms of the dependence on $\epsilon$ and the dependence on $d$
if $H \ge d$.
- Abstract(参考訳): エピソディックマルコフ決定過程(mdps)に対する線形関数近似を用いたモデルベース無報酬強化学習について検討した。
この設定では、エージェントは2つのフェーズで動作する。
探索フェーズでは、エージェントは環境と相互作用し、報酬なしでサンプルを収集する。
計画段階では、エージェントは特定の報酬関数を与えられ、調査フェーズから収集されたサンプルを使用して適切なポリシーを学ぶ。
本稿では, 線形混合MDP仮定の下で, 状態, 動作, 次の状態の3重項上に定義された特徴写像に対して, MDP の遷移確率カーネルを線形関数でパラメータ化できる, 証明可能な新しいアルゴリズム UCRL-RFE を提案する。
任意の報酬関数に対して$\epsilon$-optimal policyを得るには、探索段階で最大$\tilde o(h^5d^2\epsilon^{-2})$のエピソードをサンプリングする必要がある。
ここで、$H$はエピソードの長さであり、$d$はフィーチャーマッピングの次元である。
ベルンシュタイン型ボーナスを用いたUCRL-RFEの変種も提案し、最大$\tilde O(H^4d(H + d)\epsilon^{-2})$でサンプリングし、$\epsilon$-optimal Policyを達成する必要があることを示す。
線形混合 MDP の特別なクラスを構築することで、どんな報酬のないアルゴリズムに対しても、$\epsilon$-optimal policy を得るために少なくとも$\tilde \Omega(H^2d\epsilon^{-2})$ episodes をサンプリングする必要があることも証明できる。
我々の上限は、$\epsilon$への依存と$h \ge d$ に対する$d$への依存という観点で下限に一致する。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Sharper Model-free Reinforcement Learning for Average-reward Markov
Decision Processes [21.77276136591518]
我々はマルコフ決定過程(MDPs)のための証明可能なモデルフリー強化学習(RL)アルゴリズムを開発した。
シミュレータ設定では,$widetildeO left(fracSAmathrmsp(h*)epsilon2+fracS2Amathrmsp(h*)epsilon2right)$サンプルを用いて,$epsilon$-optimal Policyを求める。
論文 参考訳(メタデータ) (2023-06-28T17:43:19Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Nearly Minimax Optimal Reinforcement Learning with Linear Function
Approximation [25.60689712525918]
本稿では,遷移確率と報酬関数が線形な線形関数近似を用いた強化学習について検討する。
本稿では,新たなアルゴリズムLSVI-UCB$+$を提案し,$H$がエピソード長,$d$が特徴次元,$T$がステップ数である場合に,$widetildeO(HdsqrtT)$ regretboundを実現する。
論文 参考訳(メタデータ) (2022-06-23T06:04:21Z) - Gap-Dependent Unsupervised Exploration for Reinforcement Learning [40.990467706237396]
タスクに依存しない強化学習のための効率的なアルゴリズムを提案する。
このアルゴリズムは1/epsilon cdot (H3SA / rho + H4 S2 A) の$widetildemathcalOのみを探索する。
情報理論上、この境界は$rho Theta (1/(HS))$と$H>1$に対してほぼ厳密であることを示す。
論文 参考訳(メタデータ) (2021-08-11T20:42:46Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。