論文の概要: Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.07278v1
- Date: Fri, 14 Apr 2023 17:46:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 12:51:56.267784
- Title: Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning
- Title(参考訳): 強化学習における最小逆方向探索
- Authors: Gen Li and Yuling Yan and Yuxin Chen and Jianqing Fan
- Abstract要約: 本稿では,強化学習(RL)における報酬非依存探索について検討する。
我々のアルゴリズムは、これらすべての報酬関数に対して$varepsilon$-optimal Policyを見つけることができる。
私たちのデザインの斬新さは、オフラインRLからの洞察に基づいています。
- 参考スコア(独自算出の注目度): 17.193902915070506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies reward-agnostic exploration in reinforcement learning (RL)
-- a scenario where the learner is unware of the reward functions during the
exploration stage -- and designs an algorithm that improves over the state of
the art. More precisely, consider a finite-horizon non-stationary Markov
decision process with $S$ states, $A$ actions, and horizon length $H$, and
suppose that there are no more than a polynomial number of given reward
functions of interest. By collecting an order of \begin{align*}
\frac{SAH^3}{\varepsilon^2} \text{ sample episodes (up to log factor)}
\end{align*} without guidance of the reward information, our algorithm is able
to find $\varepsilon$-optimal policies for all these reward functions, provided
that $\varepsilon$ is sufficiently small. This forms the first reward-agnostic
exploration scheme in this context that achieves provable minimax optimality.
Furthermore, once the sample size exceeds $\frac{S^2AH^3}{\varepsilon^2}$
episodes (up to log factor), our algorithm is able to yield $\varepsilon$
accuracy for arbitrarily many reward functions (even when they are
adversarially designed), a task commonly dubbed as ``reward-free exploration.''
The novelty of our algorithm design draws on insights from offline RL: the
exploration scheme attempts to maximize a critical reward-agnostic quantity
that dictates the performance of offline RL, while the policy learning paradigm
leverages ideas from sample-optimal offline RL paradigms.
- Abstract(参考訳): 本稿では,強化学習における報酬非依存探索(RL)について考察する。これは,学習者が探索段階における報酬関数を知らないシナリオであり,技術状況を改善するアルゴリズムを設計する。
より正確には、有限ホリゾン非定常マルコフ決定過程を$S$状態、$A$作用、地平線長$H$とみなし、与えられた利益関数の多項式数以上のものは存在しないと仮定する。
aign*} \begin{align*} \frac{sah^3}{\varepsilon^2} \text{ sample episodes (up to log factor)} \end{align*} の順序を報酬情報のガイダンスなしで収集することで、これらの報酬関数すべてに対して$\varepsilon$-optimalポリシーを見つけることができる。
これは、証明可能なミニマックス最適性を達成するこの文脈において、最初の報酬非依存な探索スキームを形成する。
さらに、サンプルサイズが$\frac{S^2AH^3}{\varepsilon^2}$のエピソード(ログファクタまで)を超えると、我々のアルゴリズムは任意の多くの報酬関数に対して$\varepsilon$の精度を得られる(逆フリー探索と呼ばれる)。
探索手法は,オフラインRLの性能を規定する重要な報酬非依存量を最大化しようとするが,政策学習パラダイムはサンプル最適オフラインRLパラダイムのアイデアを活用する。
関連論文リスト
- Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - Provably Feedback-Efficient Reinforcement Learning via Active Reward
Learning [26.067411894141863]
報酬関数は、強化学習(RL)における課題を特定する上で、最重要である。
HiL(Human-in-the-loop) RLは、さまざまなフィードバックを提供することで、複雑な目標をRLエージェントに伝達することを可能にする。
報奨関数を指定せずに環境を探索する能動的学習に基づくRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-18T12:36:09Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Adaptive Reward-Free Exploration [48.98199700043158]
提案アルゴリズムは1994年からのFiechterのアルゴリズムの変種と見なすことができる。
さらに、報酬のない探索と最高の政治識別の相対的な複雑さについて検討する。
論文 参考訳(メタデータ) (2020-06-11T09:58:03Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。