論文の概要: Uniform-PAC Guarantees for Model-Based RL with Bounded Eluder Dimension
- arxiv url: http://arxiv.org/abs/2305.08350v1
- Date: Mon, 15 May 2023 05:07:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 15:59:07.202327
- Title: Uniform-PAC Guarantees for Model-Based RL with Bounded Eluder Dimension
- Title(参考訳): 境界エルダー次元を持つモデルベースRLの均一PAC保証
- Authors: Yue Wu and Jiafan He and Quanquan Gu
- Abstract要約: 一般関数クラスと有界エリューダを用いた非線形帯域幅とモデルベースエピソードRLのアルゴリズムを提案する。
達成された一様PACサンプルの複雑性は、最先端の後悔境界や、線形ケースに還元された場合のサンプルの複雑さを保証するという意味で厳密である。
- 参考スコア(独自算出の注目度): 86.3584476711976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been remarkable progress in reinforcement learning (RL)
with general function approximation. However, all these works only provide
regret or sample complexity guarantees. It is still an open question if one can
achieve stronger performance guarantees, i.e., the uniform probably approximate
correctness (Uniform-PAC) guarantee that can imply both a sub-linear regret
bound and a polynomial sample complexity for any target learning accuracy. We
study this problem by proposing algorithms for both nonlinear bandits and
model-based episodic RL using the general function class with a bounded eluder
dimension. The key idea of the proposed algorithms is to assign each action to
different levels according to its width with respect to the confidence set. The
achieved uniform-PAC sample complexity is tight in the sense that it matches
the state-of-the-art regret bounds or sample complexity guarantees when reduced
to the linear case. To the best of our knowledge, this is the first work for
uniform-PAC guarantees on bandit and RL that goes beyond linear cases.
- Abstract(参考訳): 近年,一般関数近似を用いた強化学習(RL)が目覚ましい進歩を遂げている。
しかしながら、これらすべての作業は、後悔またはサンプル複雑さの保証のみを提供する。
より強力な性能保証(Uniform-PAC)を達成することができるかどうか、すなわち、目的とする学習精度に対して、サブ線形後悔境界と多項式サンプルの複雑さの両方を暗示できる一様近似正当性(Uniform-PAC)を保証するかは、依然として未解決の問題である。
一般関数クラスと有界楕円次元を用いた非線形帯域幅とモデルベースエピソードRLのアルゴリズムを用いてこの問題を考察する。
提案するアルゴリズムの重要な考え方は、各アクションを、信頼セットの幅に応じて異なるレベルに割り当てることである。
達成された一様PACサンプルの複雑性は、最先端の後悔境界や、線形ケースに還元された場合のサンプルの複雑さを保証するという意味で厳密である。
我々の知る限りでは、これは線形の場合を超えたバンドとRLの均一PAC保証のための最初の作業である。
関連論文リスト
- Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback [38.61232011566285]
本稿では,最近提案されたRLモデルとアグリゲート帯域フィードバック(RL-ABF)について検討する。
本稿では,ABFを線形関数近似に拡張し,ほぼ最適後悔保証を伴う2つの効率的なアルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-05-13T10:51:01Z) - Optimal PAC Bounds Without Uniform Convergence [11.125968799758436]
我々は、一様収束論の極限を超えるフレームワークを通して、最適な高確率リスク境界を提供する。
我々のフレームワークは、置換不変予測器の残余誤差を高い確率リスク境界に変換する。
具体的には, 1-inclusion graph アルゴリズムの特定のアグリゲーションが最適であることを示す。
論文 参考訳(メタデータ) (2023-04-18T17:57:31Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Uniform-PAC Bounds for Reinforcement Learning with Linear Function
Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。
既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。
我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文 参考訳(メタデータ) (2021-06-22T08:48:56Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature [61.22680308681648]
決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T12:41:56Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。