論文の概要: Sample-Efficient Reinforcement Learning for POMDPs with Linear Function
Approximations
- arxiv url: http://arxiv.org/abs/2204.09787v1
- Date: Wed, 20 Apr 2022 21:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-23 03:30:04.910502
- Title: Sample-Efficient Reinforcement Learning for POMDPs with Linear Function
Approximations
- Title(参考訳): 線形関数近似を用いたpomdpのサンプル効率強化学習
- Authors: Qi Cai, Zhuoran Yang, Zhaoran Wang
- Abstract要約: 本稿では,関数近似と部分観測可能性の緊張に対処する。
最適ポリシーと値関数は有限メモリヒルベルト・ベルマン作用素の列によって特徴づけられることを示す。
本稿では、カーネル空間(RKHS)の埋め込みを再現することで、これらの演算子の楽観的な推定値を構成するRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 130.66193083412716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of reinforcement learning (RL) for Markov decision
processes (MDPs) with function approximation, most RL algorithms easily fail if
the agent only has partial observations of the state. Such a setting is often
modeled as a partially observable Markov decision process (POMDP). Existing
sample-efficient algorithms for POMDPs are restricted to the tabular setting
where the state and observation spaces are finite. In this paper, we make the
first attempt at tackling the tension between function approximation and
partial observability. In specific, we focus on a class of undercomplete POMDPs
with linear function approximations, which allows the state and observation
spaces to be infinite. For such POMDPs, we show that the optimal policy and
value function can be characterized by a sequence of finite-memory Bellman
operators. We propose an RL algorithm that constructs optimistic estimators of
these operators via reproducing kernel Hilbert space (RKHS) embedding.
Moreover, we theoretically prove that the proposed algorithm finds an
$\varepsilon$-optimal policy with $\tilde O (1/\varepsilon^2)$ episodes of
exploration. Also, this sample complexity only depends on the intrinsic
dimension of the POMDP polynomially and is independent of the size of the state
and observation spaces. To our best knowledge, we develop the first provably
sample-efficient algorithm for POMDPs with function approximation.
- Abstract(参考訳): 関数近似によるマルコフ決定過程(MDP)に対する強化学習(RL)の成功にもかかわらず、ほとんどのRLアルゴリズムは、エージェントが状態の部分的な観察しか持たなければ容易に失敗する。
このような設定はしばしば部分的に観察可能なマルコフ決定過程(pomdp)としてモデル化される。
既存のサンプル効率のアルゴリズムは、状態と観測空間が有限となる表の設定に制限される。
本稿では,関数近似と部分可観測性の間の張力に取り組む最初の試みを行う。
具体的には、線形関数近似を持つ不完全POMDPのクラスに焦点を当て、状態と観測空間を無限にすることができる。
そのようなPOMDPに対して、最適ポリシーと値関数は有限メモリベルマン作用素の列によって特徴づけられることを示す。
本稿では,これらの演算子の楽観的推定をカーネルヒルベルト空間(rkhs)埋め込みを再現することで構成するrlアルゴリズムを提案する。
さらに,提案アルゴリズムが$\varepsilon$-optimal policy with $\tilde O (1/\varepsilon^2)$ episodes of Explorion を求めることを理論的に証明した。
また、このサンプルの複雑さは、POMDP多項式の固有次元にのみ依存し、状態と観測空間のサイズに依存しない。
我々の知る限り、関数近似を用いたPOMDPのための最初の実証可能なサンプル効率アルゴリズムを開発した。
関連論文リスト
- Spectral Algorithms on Manifolds through Diffusion [1.7227952883644062]
再生カーネル空間におけるスペクトルアルゴリズムの収束性能について検討する。
一般化ノルムに関する厳密な収束上限を導出するために積分作用素技術を用いる。
本研究は,高次元近似のより広い文脈において,スペクトルアルゴリズムが実質的に重要であることを確認した。
論文 参考訳(メタデータ) (2024-03-06T12:43:53Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Statistical Optimality of Divide and Conquer Kernel-based Functional
Linear Regression [1.7227952883644062]
本稿では,対象関数が基礎となるカーネル空間に存在しないシナリオにおいて,分割・コンカレント推定器の収束性能について検討する。
分解に基づくスケーラブルなアプローチとして、関数線形回帰の分割・収束推定器は、時間とメモリにおけるアルゴリズムの複雑さを大幅に減らすことができる。
論文 参考訳(メタデータ) (2022-11-20T12:29:06Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Embed to Control Partially Observed Systems: Representation Learning with Provable Sample Efficiency [105.17746223041954]
部分的に観察されたマルコフ決定過程(POMDP)における強化学習は2つの課題に直面している。
しばしば、未来を予測するのに完全な歴史を要し、地平線と指数関数的にスケールするサンプルの複雑さを誘導する。
本稿では,2段階の表現を最適化しながら学習するETC(Embed to Control)という強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-26T16:34:46Z) - Non-Linear Reinforcement Learning in Large Action Spaces: Structural Conditions and Sample-efficiency of Posterior Sampling [28.371541697552928]
一般作用空間を線形埋め込み性条件下で保持する非線形関数近似の最初の結果を示す。
最悪の場合,RL問題のランクパラメータでスケールが保証される。
論文 参考訳(メタデータ) (2022-03-15T20:50:26Z) - Posterior-Aided Regularization for Likelihood-Free Inference [23.708122045184698]
後補助正規化(PAR)は,モデル構造に関係なく,密度推定器の学習に適用可能である。
単一のニューラルネットワークを用いて逆KL項と相互情報項の両方を推定するPARの統一推定方法を提供する。
論文 参考訳(メタデータ) (2021-02-15T16:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。