論文の概要: PAC Reinforcement Learning for Predictive State Representations
- arxiv url: http://arxiv.org/abs/2207.05738v1
- Date: Tue, 12 Jul 2022 17:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 15:10:21.015201
- Title: PAC Reinforcement Learning for Predictive State Representations
- Title(参考訳): 予測状態表現のためのPAC強化学習
- Authors: Wenhao Zhan, Masatoshi Uehara, Wen Sun, Jason D. Lee
- Abstract要約: 部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 60.00237613646686
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper we study online Reinforcement Learning (RL) in partially
observable dynamical systems. We focus on the Predictive State Representations
(PSRs) model, which is an expressive model that captures other well-known
models such as Partially Observable Markov Decision Processes (POMDP). PSR
represents the states using a set of predictions of future observations and is
defined entirely using observable quantities. We develop a novel model-based
algorithm for PSRs that can learn a near optimal policy in sample complexity
scaling polynomially with respect to all the relevant parameters of the
systems. Our algorithm naturally works with function approximation to extend to
systems with potentially large state and observation spaces. We show that given
a realizable model class, the sample complexity of learning the near optimal
policy only scales polynomially with respect to the statistical complexity of
the model class, without any explicit polynomial dependence on the size of the
state and observation spaces. Notably, our work is the first work that shows
polynomial sample complexities to compete with the globally optimal policy in
PSRs. Finally, we demonstrate how our general theorem can be directly used to
derive sample complexity bounds for special models including $m$-step weakly
revealing and $m$-step decodable tabular POMDPs, POMDPs with low-rank latent
transition, and POMDPs with linear emission and latent transition.
- Abstract(参考訳): 本稿では,部分可観測力学系におけるオンライン強化学習(rl)について検討する。
本稿では,PSR(Predictive State Representations)モデルに焦点をあてる。このモデルは,部分観測可能なマルコフ決定プロセス(POMDP)など,他のよく知られたモデルをキャプチャする表現モデルである。
PSRは将来の観測の一連の予測を用いて状態を表し、観測可能な量で完全に定義される。
そこで本研究では,PSRのための新しいモデルベースアルゴリズムを開発した。このアルゴリズムは,システムの関連するパラメータのすべてに対して,多項式のスケーリングにおいて,ほぼ最適なポリシを学習することができる。
我々のアルゴリズムは自然に関数近似を用いて、潜在的に大きな状態と観測空間を持つシステムに拡張する。
実数可能なモデルクラスが与えられたとき、最善のポリシーを学習するサンプル複雑性は、状態と観測空間の大きさに明確な多項式依存性を持たず、モデルクラスの統計的複雑性に対して多項式的にしかスケールしない。
特に,我々の研究はpsrのグローバル最適ポリシーと競合する多項式サンプルの複雑さを示す最初の研究である。
最後に,我々の一般定理が,線形放出と潜在遷移を伴う pomdp と,m$-step weakly revealing と $m$-step decodable tabular pomdps,低ランク潜在遷移の pomdps を含む特殊モデルのサンプル複雑性境界を直接導出するためにどのように用いられるかを示す。
関連論文リスト
- Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Partially Observable RL with B-Stability: Unified Structural Condition
and Sharp Sample-Efficient Algorithms [25.658930892561735]
本稿では、予測状態表現(PSR)の一般設定における部分観測可能RLの3つの側面について述べる。
本稿では,emphB安定性(emphB-stability)と呼ばれるPSRの自然かつ統一的な構造条件を提案する。
本稿では,B-stable PSRが関連する問題パラメータのサンプルで学習できることを示し,上記のサブクラスをインスタンス化すると,サンプルの複雑さが向上することを示した。
論文 参考訳(メタデータ) (2022-09-29T17:51:51Z) - Provably Efficient Reinforcement Learning in Partially Observable
Dynamical Systems [97.12538243736705]
関数近似を用いた部分観測可能力学系の強化学習について検討する。
本稿では,POMDP,LQG,予測状態表現 (Predictive State Representations,PSR) などのモデルや,POMDPのHilbert Space Embeddingsや観測可能なPOMDPを遅延低ランク遷移で組み込むことのできる,汎用的な新しいテクスタイト(Partially Observar Bilinear Actor-Critic)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-24T00:27:42Z) - Pessimistic Model-based Offline RL: PAC Bounds and Posterior Sampling
under Partial Coverage [33.766012922307084]
一般関数近似を用いたモデルに基づくオフライン強化学習について検討する。
本稿では、一般関数クラスを活用し、ペシミズムを符号化するために制約を用いる制約付きポリシー最適化(CPPO)というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T16:30:01Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。