論文の概要: Task-agnostic Exploration in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.09497v1
- Date: Tue, 16 Jun 2020 20:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 18:43:13.893880
- Title: Task-agnostic Exploration in Reinforcement Learning
- Title(参考訳): 強化学習におけるタスク非依存探索
- Authors: Xuezhou Zhang, Yuzhe ma, Adish Singla
- Abstract要約: タスクに依存しない効率的な強化学習アルゴリズムtextscUCBZero を提案する。
少なくとも$tilde O(log(N)H5SA/epsilon2)$ Exploring episodesの後、$N$の任意のタスクに対して$epsilon$-optimal Policyを見つける。
また、$Omega(log (N)H2SA/epsilon2)$ lower boundを提供し、$N$への$log$依存性が避けられないことを示す。
- 参考スコア(独自算出の注目度): 35.403304641170386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient exploration is one of the main challenges in reinforcement learning
(RL). Most existing sample-efficient algorithms assume the existence of a
single reward function during exploration. In many practical scenarios,
however, there is not a single underlying reward function to guide the
exploration, for instance, when an agent needs to learn many skills
simultaneously, or multiple conflicting objectives need to be balanced. To
address these challenges, we propose the \textit{task-agnostic RL} framework:
In the exploration phase, the agent first collects trajectories by exploring
the MDP without the guidance of a reward function. After exploration, it aims
at finding near-optimal policies for $N$ tasks, given the collected
trajectories augmented with \textit{sampled rewards} for each task. We present
an efficient task-agnostic RL algorithm, \textsc{UCBZero}, that finds
$\epsilon$-optimal policies for $N$ arbitrary tasks after at most $\tilde
O(\log(N)H^5SA/\epsilon^2)$ exploration episodes. We also provide an
$\Omega(\log (N)H^2SA/\epsilon^2)$ lower bound, showing that the $\log$
dependency on $N$ is unavoidable. Furthermore, we provide an $N$-independent
sample complexity bound of \textsc{UCBZero} in the statistically easier setting
when the ground truth reward functions are known.
- Abstract(参考訳): 効率的な探索は強化学習(RL)における主要な課題の1つである。
既存のサンプル効率のよいアルゴリズムの多くは、探索中に単一の報酬関数の存在を仮定している。
しかし、多くの実用的なシナリオでは、エージェントが同時に多くのスキルを習得する必要がある場合や、複数の矛盾する目標をバランスさせる必要がある場合など、探索を導くための単一の報酬関数は存在しない。
これらの課題に対処するために、我々は \textit{task-agnostic rl} フレームワークを提案している。 探索フェーズでは、エージェントは、報酬関数のガイダンスなしでmdpを探索することによって、最初に軌道を収集します。
調査の後、各タスクに対して \textit{sampled rewards} で強化された収集されたトラジェクトリを考えると、$N$タスクのほぼ最適ポリシーを見つけることを目指している。
このアルゴリズムは,最大$\tilde O(\log(N)H^5SA/\epsilon^2)の探索後に,$N$の任意のタスクに対して$\epsilon$-optimal Policyを求める。
また、$\Omega(\log (N)H^2SA/\epsilon^2)$ lower boundを提供し、$N$の$\log$依存性は避けられないことを示す。
さらに、基底真理報酬関数が知られている場合の統計的に簡単な設定で、$n$非依存なサンプル複雑性が \textsc{ucbzero} に束縛される。
関連論文リスト
- Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - Provably Feedback-Efficient Reinforcement Learning via Active Reward
Learning [26.067411894141863]
報酬関数は、強化学習(RL)における課題を特定する上で、最重要である。
HiL(Human-in-the-loop) RLは、さまざまなフィードバックを提供することで、複雑な目標をRLエージェントに伝達することを可能にする。
報奨関数を指定せずに環境を探索する能動的学習に基づくRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-18T12:36:09Z) - Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning [17.239062061431646]
本稿では,強化学習(RL)における報酬非依存探索について検討する。
S$状態、$A$作用、および水平長$H$を持つ有限水平不均一決定過程を考える。
我々のアルゴリズムは任意の数の報酬関数に対して$varepsilon$精度を得ることができる。
論文 参考訳(メタデータ) (2023-04-14T17:46:49Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z) - Gap-Dependent Unsupervised Exploration for Reinforcement Learning [40.990467706237396]
タスクに依存しない強化学習のための効率的なアルゴリズムを提案する。
このアルゴリズムは1/epsilon cdot (H3SA / rho + H4 S2 A) の$widetildemathcalOのみを探索する。
情報理論上、この境界は$rho Theta (1/(HS))$と$H>1$に対してほぼ厳密であることを示す。
論文 参考訳(メタデータ) (2021-08-11T20:42:46Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。