論文の概要: On the Sample Complexity of Reinforcement Learning with Policy Space
Generalization
- arxiv url: http://arxiv.org/abs/2008.07353v1
- Date: Mon, 17 Aug 2020 14:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 02:49:36.391909
- Title: On the Sample Complexity of Reinforcement Learning with Policy Space
Generalization
- Title(参考訳): ポリシー空間一般化による強化学習のサンプル複雑性について
- Authors: Wenlong Mou, Zheng Wen, Xi Chen
- Abstract要約: 政策空間の一般化を伴う大規模強化学習(RL)問題における最適なサンプル複雑性について検討する。
既存の結果は、一般化モデルがなければ、RLアルゴリズムのサンプルの複雑さは必然的に状態空間と行動空間の濃度に依存することを示している。
本稿では,政策学習の本質的な複雑さを特徴付ける,政策空間におけるユーラダー次元の新たな概念を提案する。
- 参考スコア(独自算出の注目度): 21.879621917722613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the optimal sample complexity in large-scale Reinforcement Learning
(RL) problems with policy space generalization, i.e. the agent has a prior
knowledge that the optimal policy lies in a known policy space. Existing
results show that without a generalization model, the sample complexity of an
RL algorithm will inevitably depend on the cardinalities of state space and
action space, which are intractably large in many practical problems.
To avoid such undesirable dependence on the state and action space sizes,
this paper proposes a new notion of eluder dimension for the policy space,
which characterizes the intrinsic complexity of policy learning in an arbitrary
Markov Decision Process (MDP). Using a simulator oracle, we prove a
near-optimal sample complexity upper bound that only depends linearly on the
eluder dimension. We further prove a similar regret bound in deterministic
systems without the simulator.
- Abstract(参考訳): 本研究では,政策空間の一般化を伴う大規模強化学習(rl)問題における最適サンプル複雑性について検討する。
既存の結果は、一般化モデルがなければ、RLアルゴリズムのサンプルの複雑さは必然的に状態空間と行動空間の濃度に依存することを示し、多くの実用的な問題において明らかに大きい。
そこで本稿では,このような状態や行動空間の大きさへの望ましくない依存を避けるため,任意のマルコフ決定過程 (mdp) において,政策学習の本質的複雑性を特徴付ける,ポリシー空間におけるエルダー次元の新たな概念を提案する。
シミュレーターオラクルを用いて、エルダー次元に線形にのみ依存する、最適に近いサンプル複雑性の上限を証明できる。
さらに、シミュレータを使わずに決定論的なシステムで同様の後悔を証明します。
関連論文リスト
- Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes [37.15580574143281]
オフライン強化学習(RL)
本稿では、オフラインデータを用いた全変動距離を特徴とする不確実性を伴う分布安定線形マルコフ決定過程(MDP)のサンプル複雑性について考察する。
我々は悲観的なモデルに基づくアルゴリズムを開発し、最小限のデータカバレッジ仮定の下でそのサンプルの複雑さを確立する。
論文 参考訳(メタデータ) (2024-03-19T17:48:42Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。
AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:46:57Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Instance-Dependent Near-Optimal Policy Identification in Linear MDPs via
Online Experiment Design [12.056495277232118]
この研究は、ほぼ最適ポリシーを学ぶことの「インスタンスに依存した」複雑さを理解することを目的としている。
本稿では,複雑性の詳細なインスタンス依存尺度を実現するアルゴリズムである textscPedel を提案する。
我々は、textscPedel が低regret, minimax-optimal アルゴリズムよりも有益であることを示す。
論文 参考訳(メタデータ) (2022-07-06T10:42:57Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Learning with Safety Constraints: Sample Complexity of Reinforcement
Learning for Constrained MDPs [13.922754427601491]
我々は,安全性の制約と,所望の精度を確保するために必要なサンプル数との関係を特徴付ける。
我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約されたRLアルゴリズムのサンプルは制約の数に対数的な因子によって増加することである。
論文 参考訳(メタデータ) (2020-08-01T18:17:08Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。