論文の概要: Near-Optimal Deployment Efficiency in Reward-Free Reinforcement Learning
with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2210.00701v1
- Date: Mon, 3 Oct 2022 03:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:13:01.204343
- Title: Near-Optimal Deployment Efficiency in Reward-Free Reinforcement Learning
with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いた報酬フリー強化学習における近似最適配置効率
- Authors: Dan Qiao, Yu-Xiang Wang
- Abstract要約: 本研究では, 線形関数近似を用いた展開効率向上強化学習(RL)の課題を, 遠近自由探索条件下で検討する。
我々は,最大$widetildeO(fracd2H5epsilon2)$ trajectoriesを$H$デプロイメント内で収集し,$epsilon$-Optimal Policyを任意の(おそらくはデータに依存した)報酬関数の選択に対して識別するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 16.871660060209674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of deployment efficient reinforcement learning (RL) with
linear function approximation under the \emph{reward-free} exploration setting.
This is a well-motivated problem because deploying new policies is costly in
real-life RL applications. Under the linear MDP setting with feature dimension
$d$ and planning horizon $H$, we propose a new algorithm that collects at most
$\widetilde{O}(\frac{d^2H^5}{\epsilon^2})$ trajectories within $H$ deployments
to identify $\epsilon$-optimal policy for any (possibly data-dependent) choice
of reward functions. To the best of our knowledge, our approach is the first to
achieve optimal deployment complexity and optimal $d$ dependence in sample
complexity at the same time, even if the reward is known ahead of time. Our
novel techniques include an exploration-preserving policy discretization and a
generalized G-optimal experiment design, which could be of independent
interest. Lastly, we analyze the related problem of regret minimization in
low-adaptive RL and provide information-theoretic lower bounds for switching
cost and batch complexity.
- Abstract(参考訳): 本研究では, 線形関数近似を用いた展開効率強化学習(RL)の課題を, 探索条件下で検討する。
なぜなら、新しいポリシーのデプロイは実際のrlアプリケーションではコストがかかるからです。
特徴次元$d$と計画的地平線$H$の線形 MDP 設定の下では、最大$\widetilde{O}(\frac{d^2H^5}{\epsilon^2})$ trajectories を$H$内に集め、報酬関数の選択(おそらくはデータ依存)に対して$\epsilon$-optimal Policy を識別するアルゴリズムを提案する。
私たちの知る限り、私たちのアプローチは、たとえ報酬が事前に分かっているとしても、最適なデプロイメント複雑性とサンプル複雑性の最適な$d$依存性を同時に達成する最初の方法です。
我々の新しい技術には、探索保存政策の離散化と、独立性のある一般化されたG最適実験設計が含まれる。
最後に,低適応rlにおける後悔最小化の問題点を分析し,スイッチングコストとバッチ複雑性のための情報理論下限を提供する。
関連論文リスト
- A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。