論文の概要: Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency
- arxiv url: http://arxiv.org/abs/2204.09787v3
- Date: Mon, 1 Apr 2024 00:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 14:31:02.363373
- Title: Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency
- Title(参考訳): 部分観察からの強化学習:確率的サンプル効率を考慮した線形関数近似
- Authors: Qi Cai, Zhuoran Yang, Zhaoran Wang,
- Abstract要約: 部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
- 参考スコア(独自算出の注目度): 111.83670279016599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study reinforcement learning for partially observed Markov decision processes (POMDPs) with infinite observation and state spaces, which remains less investigated theoretically. To this end, we make the first attempt at bridging partial observability and function approximation for a class of POMDPs with a linear structure. In detail, we propose a reinforcement learning algorithm (Optimistic Exploration via Adversarial Integral Equation or OP-TENET) that attains an $\epsilon$-optimal policy within $O(1/\epsilon^2)$ episodes. In particular, the sample complexity scales polynomially in the intrinsic dimension of the linear structure and is independent of the size of the observation and state spaces. The sample efficiency of OP-TENET is enabled by a sequence of ingredients: (i) a Bellman operator with finite memory, which represents the value function in a recursive manner, (ii) the identification and estimation of such an operator via an adversarial integral equation, which features a smoothed discriminator tailored to the linear structure, and (iii) the exploration of the observation and state spaces via optimism, which is based on quantifying the uncertainty in the adversarial integral equation.
- Abstract(参考訳): 有限観測および状態空間を持つ部分観測マルコフ決定過程(POMDP)の強化学習について検討した。
この目的のために、線形構造を持つPOMDPのクラスに対して、部分観測可能性と関数近似をブリッジする最初の試みを行う。
本稿では,O(1/\epsilon^2)$のエピソード内で,$\epsilon$-optimal Policyを達成できる強化学習アルゴリズム(Optimistic Exploration via Adversarial Integral Equation, OP-TENET)を提案する。
特に、サンプル複雑性は線形構造の内在次元において多項式的にスケールし、観測空間や状態空間のサイズとは独立である。
OP-TENETのサンプル効率は、一連の成分によって実現される。
i) 再帰的に値関数を表す有限メモリのベルマン演算子
2) 線形構造に合わせた滑らかな判別器を特徴とする逆積分方程式によるそのような作用素の同定と推定
3) 対角積分方程式の不確かさの定量化に基づく楽観主義による観測と状態空間の探索。
関連論文リスト
- Spectral Algorithms on Manifolds through Diffusion [1.7227952883644062]
再生カーネル空間におけるスペクトルアルゴリズムの収束性能について検討する。
一般化ノルムに関する厳密な収束上限を導出するために積分作用素技術を用いる。
本研究は,高次元近似のより広い文脈において,スペクトルアルゴリズムが実質的に重要であることを確認した。
論文 参考訳(メタデータ) (2024-03-06T12:43:53Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Statistical Optimality of Divide and Conquer Kernel-based Functional
Linear Regression [1.7227952883644062]
本稿では,対象関数が基礎となるカーネル空間に存在しないシナリオにおいて,分割・コンカレント推定器の収束性能について検討する。
分解に基づくスケーラブルなアプローチとして、関数線形回帰の分割・収束推定器は、時間とメモリにおけるアルゴリズムの複雑さを大幅に減らすことができる。
論文 参考訳(メタデータ) (2022-11-20T12:29:06Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Embed to Control Partially Observed Systems: Representation Learning with Provable Sample Efficiency [105.17746223041954]
部分的に観察されたマルコフ決定過程(POMDP)における強化学習は2つの課題に直面している。
しばしば、未来を予測するのに完全な歴史を要し、地平線と指数関数的にスケールするサンプルの複雑さを誘導する。
本稿では,2段階の表現を最適化しながら学習するETC(Embed to Control)という強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-26T16:34:46Z) - Non-Linear Reinforcement Learning in Large Action Spaces: Structural Conditions and Sample-efficiency of Posterior Sampling [28.371541697552928]
一般作用空間を線形埋め込み性条件下で保持する非線形関数近似の最初の結果を示す。
最悪の場合,RL問題のランクパラメータでスケールが保証される。
論文 参考訳(メタデータ) (2022-03-15T20:50:26Z) - Posterior-Aided Regularization for Likelihood-Free Inference [23.708122045184698]
後補助正規化(PAR)は,モデル構造に関係なく,密度推定器の学習に適用可能である。
単一のニューラルネットワークを用いて逆KL項と相互情報項の両方を推定するPARの統一推定方法を提供する。
論文 参考訳(メタデータ) (2021-02-15T16:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。