論文の概要: Provably Efficient Reinforcement Learning in Partially Observable
Dynamical Systems
- arxiv url: http://arxiv.org/abs/2206.12020v1
- Date: Fri, 24 Jun 2022 00:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 03:54:14.170089
- Title: Provably Efficient Reinforcement Learning in Partially Observable
Dynamical Systems
- Title(参考訳): 部分可観測力学系における高能率強化学習
- Authors: Masatoshi Uehara, Ayush Sekhari, Jason D. Lee, Nathan Kallus, Wen Sun
- Abstract要約: 関数近似を用いた部分観測可能力学系の強化学習について検討する。
本稿では,POMDP,LQG,予測状態表現 (Predictive State Representations,PSR) などのモデルや,POMDPのHilbert Space Embeddingsや観測可能なPOMDPを遅延低ランク遷移で組み込むことのできる,汎用的な新しいテクスタイト(Partially Observar Bilinear Actor-Critic)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 97.12538243736705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study Reinforcement Learning for partially observable dynamical systems
using function approximation. We propose a new \textit{Partially Observable
Bilinear Actor-Critic framework}, that is general enough to include models such
as observable tabular Partially Observable Markov Decision Processes (POMDPs),
observable Linear-Quadratic-Gaussian (LQG), Predictive State Representations
(PSRs), as well as a newly introduced model Hilbert Space Embeddings of POMDPs
and observable POMDPs with latent low-rank transition. Under this framework, we
propose an actor-critic style algorithm that is capable of performing agnostic
policy learning. Given a policy class that consists of memory based policies
(that look at a fixed-length window of recent observations), and a value
function class that consists of functions taking both memory and future
observations as inputs, our algorithm learns to compete against the best
memory-based policy in the given policy class. For certain examples such as
undercomplete observable tabular POMDPs, observable LQGs and observable POMDPs
with latent low-rank transition, by implicitly leveraging their special
properties, our algorithm is even capable of competing against the globally
optimal policy without paying an exponential dependence on the horizon in its
sample complexity.
- Abstract(参考訳): 関数近似を用いた部分観測可能力学系の強化学習について検討する。
本稿では,可観測タブ状部分可観測マルコフ決定プロセス(POMDP),可観測線形量子ガウス行列(LQG),予測状態表現(PSR),新たに導入されたPOMDPのヒルベルト空間埋め込み(Hilbert Space Embeddings of POMDPs and observable POMDPs with latent Low-rank transition)などのモデルを含めるに足る,新しい‘textit{Partially Observar Bilinear Actor-Critic framework} を提案する。
本手法では,無依存なポリシー学習を実現することができるアクタ-クリティック型アルゴリズムを提案する。
メモリベースのポリシー(最近の観測の固定長ウィンドウを見る)と、メモリと将来の観測の両方を入力として取る関数からなる値関数クラスからなるポリシークラスを与えられたポリシークラスにおいて、最適なメモリベースのポリシーと競うようにアルゴリズムが学習する。
不完全な可観測表状POMDP, 観測可能なLQG, 観測可能なPOMDPなどの特殊な特性を暗黙的に活用することで, サンプルの複雑さの地平線への指数的な依存を伴わずに, グローバルな最適政策と競合することが可能になる。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Future-Dependent Value-Based Off-Policy Evaluation in POMDPs [67.21319339512699]
一般関数近似を用いた部分観測可能なMDP(POMDP)のオフ・ポリティクス評価(OPE)について検討した。
我々は、将来のプロキシを入力として取り込む将来依存値関数を導入し、新しいモデルフリーなOPE法を開発した。
我々は,本手法をダイナミックス学習に拡張し,POMDPにおけるアプローチとよく知られたスペクトル学習手法の関連性を確立する。
論文 参考訳(メタデータ) (2022-07-26T17:53:29Z) - Towards Using Fully Observable Policies for POMDPs [0.0]
部分的に観測可能なマルコフ決定プロセス(POMDP)は多くの現実世界の問題に適用可能なフレームワークである。
そこで本研究では,POMDPをマルチモーダルな信念で解決する手法を提案する。
論文 参考訳(メタデータ) (2022-07-24T13:22:13Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Pessimistic Model-based Offline RL: PAC Bounds and Posterior Sampling
under Partial Coverage [33.766012922307084]
一般関数近似を用いたモデルに基づくオフライン強化学習について検討する。
本稿では、一般関数クラスを活用し、ペシミズムを符号化するために制約を用いる制約付きポリシー最適化(CPPO)というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。