論文の概要: Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration
- arxiv url: http://arxiv.org/abs/2008.07737v2
- Date: Thu, 22 Oct 2020 02:30:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 20:46:09.177606
- Title: Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration
- Title(参考訳): リニア値反復による効率のよい報酬非依存ナビゲーション
- Authors: Andrea Zanette, Alessandro Lazaric, Mykel J. Kochenderfer, Emma
Brunskill
- Abstract要約: 我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
- 参考スコア(独自算出の注目度): 143.43658264904863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been growing progress on theoretical analyses for provably
efficient learning in MDPs with linear function approximation, but much of the
existing work has made strong assumptions to enable exploration by conventional
exploration frameworks. Typically these assumptions are stronger than what is
needed to find good solutions in the batch setting. In this work, we show how
under a more standard notion of low inherent Bellman error, typically employed
in least-square value iteration-style algorithms, we can provide strong PAC
guarantees on learning a near optimal value function provided that the linear
space is sufficiently "explorable". We present a computationally tractable
algorithm for the reward-free setting and show how it can be used to learn a
near optimal policy for any (linear) reward function, which is revealed only
once learning has completed. If this reward function is also estimated from the
samples gathered during pure exploration, our results also provide same-order
PAC guarantees on the performance of the resulting policy for this setting.
- Abstract(参考訳): 線形関数近似を用いたmdpにおける効率的学習のための理論的解析の進歩は進んでいるが、既存の研究の多くは、従来の探索フレームワークによる探索を可能にするための強力な仮定を成している。
通常、これらの仮定はバッチ設定で良いソリューションを見つけるために必要なものよりも強い。
本研究は,最小二乗反復型アルゴリズムでよく用いられる低固有なベルマン誤差というより標準的な概念の下で,線形空間が十分「探索可能」であるような近似値関数の学習に強いPAC保証を与える方法を示す。
そこで本研究では,無報酬設定のための計算可能なアルゴリズムを提示し,学習が完了したときのみ明らかにされる(線形)報酬関数に対して,最適に近いポリシーを学習する方法を示す。
この報奨関数が純粋な探索中に収集されたサンプルから推定される場合、我々はまた、この設定に対する結果のポリシーの性能について、同次PAC保証を提供する。
関連論文リスト
- Offline Reinforcement Learning with Additional Covering Distributions [0.0]
我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。
一般のMDPに対するサンプル効率のよいオフラインRLは、部分的カバレッジデータセットと弱い実現可能な関数クラスだけで実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-22T03:31:03Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Sample Efficient Deep Reinforcement Learning via Local Planning [21.420851589712626]
本研究は,シミュレータを用いた試料効率深部強化学習(RL)に焦点を当てる。
本稿では,この特性を利用した不確実性優先ローカルプランニング(UFLP)というアルゴリズムフレームワークを提案する。
本研究では,この簡単な手法により,難解な探索作業において,いくつかのベースラインRLアルゴリズムのサンプルコストを劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-01-29T23:17:26Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。