論文の概要: Reward-Free Exploration for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.02794v1
- Date: Fri, 7 Feb 2020 14:03:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 03:51:10.430047
- Title: Reward-Free Exploration for Reinforcement Learning
- Title(参考訳): 強化学習のためのReward-free Exploration
- Authors: Chi Jin, Akshay Krishnamurthy, Max Simchowitz, Tiancheng Yu
- Abstract要約: 探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
- 参考スコア(独自算出の注目度): 82.3300753751066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration is widely regarded as one of the most challenging aspects of
reinforcement learning (RL), with many naive approaches succumbing to
exponential sample complexity. To isolate the challenges of exploration, we
propose a new "reward-free RL" framework. In the exploration phase, the agent
first collects trajectories from an MDP $\mathcal{M}$ without a pre-specified
reward function. After exploration, it is tasked with computing near-optimal
policies under for $\mathcal{M}$ for a collection of given reward functions.
This framework is particularly suitable when there are many reward functions of
interest, or when the reward function is shaped by an external agent to elicit
desired behavior.
We give an efficient algorithm that conducts
$\tilde{\mathcal{O}}(S^2A\mathrm{poly}(H)/\epsilon^2)$ episodes of exploration
and returns $\epsilon$-suboptimal policies for an arbitrary number of reward
functions. We achieve this by finding exploratory policies that visit each
"significant" state with probability proportional to its maximum visitation
probability under any possible policy. Moreover, our planning procedure can be
instantiated by any black-box approximate planner, such as value iteration or
natural policy gradient. We also give a nearly-matching
$\Omega(S^2AH^2/\epsilon^2)$ lower bound, demonstrating the near-optimality of
our algorithm in this setting.
- Abstract(参考訳): 探索は強化学習(rl)の最も挑戦的な側面の1つと見なされ、指数的サンプル複雑性に屈する多くのナイーブなアプローチがある。
探索の課題を分離するため,我々は新しい"reward-free rl"フレームワークを提案する。
探索段階では、エージェントは事前に指定された報酬関数なしで、まずMDP$\mathcal{M}$から軌道を収集する。
探索後、与えられた報酬関数のコレクションに対して$\mathcal{m}$で最適に近いポリシーの計算を行う。
この枠組みは、興味のある報酬関数が多数存在する場合や、所望の行動を引き出すために外部エージェントによって報酬関数が形成される場合に特に適している。
我々は探索のエピソードを$\tilde{\mathcal{O}}(S^2A\mathrm{poly}(H)/\epsilon^2)で実行し、任意の数の報酬関数に対して$\epsilon$-suboptimal Policyを返す。
我々は,任意の政策の下で,その最大訪問確率に比例する確率で各「重要な」状態を訪問する探索的政策を見つけることにより,これを実現する。
さらに、我々の計画手順は、値反復や自然政策勾配などのブラックボックス近似プランナーによってインスタンス化することができる。
また、ほぼ一致する$\Omega(S^2AH^2/\epsilon^2)$lowboundを与え、この設定でアルゴリズムのほぼ最適性を示す。
関連論文リスト
- Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning [17.239062061431646]
本稿では,強化学習(RL)における報酬非依存探索について検討する。
S$状態、$A$作用、および水平長$H$を持つ有限水平不均一決定過程を考える。
我々のアルゴリズムは任意の数の報酬関数に対して$varepsilon$精度を得ることができる。
論文 参考訳(メタデータ) (2023-04-14T17:46:49Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - On Reward-Free Reinforcement Learning with Linear Function Approximation [144.4210285338698]
Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。
本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
論文 参考訳(メタデータ) (2020-06-19T17:59:36Z) - Task-agnostic Exploration in Reinforcement Learning [35.403304641170386]
タスクに依存しない効率的な強化学習アルゴリズムtextscUCBZero を提案する。
少なくとも$tilde O(log(N)H5SA/epsilon2)$ Exploring episodesの後、$N$の任意のタスクに対して$epsilon$-optimal Policyを見つける。
また、$Omega(log (N)H2SA/epsilon2)$ lower boundを提供し、$N$への$log$依存性が避けられないことを示す。
論文 参考訳(メタデータ) (2020-06-16T20:23:41Z) - Adaptive Reward-Free Exploration [48.98199700043158]
提案アルゴリズムは1994年からのFiechterのアルゴリズムの変種と見なすことができる。
さらに、報酬のない探索と最高の政治識別の相対的な複雑さについて検討する。
論文 参考訳(メタデータ) (2020-06-11T09:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。