Fugu-MT 論文翻訳(概要): Sample-Efficient Reinforcement Learning for POMDPs with Linear Function Approximations

論文の概要: Sample-Efficient Reinforcement Learning for POMDPs with Linear Function Approximations

arxiv url: http://arxiv.org/abs/2204.09787v1
Date: Wed, 20 Apr 2022 21:15:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-23 03:30:04.910502
Title: Sample-Efficient Reinforcement Learning for POMDPs with Linear Function Approximations
Title（参考訳）: 線形関数近似を用いたpomdpのサンプル効率強化学習
Authors: Qi Cai, Zhuoran Yang, Zhaoran Wang
Abstract要約: 本稿では,関数近似と部分観測可能性の緊張に対処する。最適ポリシーと値関数は有限メモリヒルベルト・ベルマン作用素の列によって特徴づけられることを示す。本稿では、カーネル空間(RKHS)の埋め込みを再現することで、これらの演算子の楽観的な推定値を構成するRLアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 130.66193083412716
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the success of reinforcement learning (RL) for Markov decision processes (MDPs) with function approximation, most RL algorithms easily fail if the agent only has partial observations of the state. Such a setting is often modeled as a partially observable Markov decision process (POMDP). Existing sample-efficient algorithms for POMDPs are restricted to the tabular setting where the state and observation spaces are finite. In this paper, we make the first attempt at tackling the tension between function approximation and partial observability. In specific, we focus on a class of undercomplete POMDPs with linear function approximations, which allows the state and observation spaces to be infinite. For such POMDPs, we show that the optimal policy and value function can be characterized by a sequence of finite-memory Bellman operators. We propose an RL algorithm that constructs optimistic estimators of these operators via reproducing kernel Hilbert space (RKHS) embedding. Moreover, we theoretically prove that the proposed algorithm finds an $\varepsilon$-optimal policy with $\tilde O (1/\varepsilon^2)$ episodes of exploration. Also, this sample complexity only depends on the intrinsic dimension of the POMDP polynomially and is independent of the size of the state and observation spaces. To our best knowledge, we develop the first provably sample-efficient algorithm for POMDPs with function approximation.
Abstract（参考訳）: 関数近似によるマルコフ決定過程(MDP)に対する強化学習(RL)の成功にもかかわらず、ほとんどのRLアルゴリズムは、エージェントが状態の部分的な観察しか持たなければ容易に失敗する。このような設定はしばしば部分的に観察可能なマルコフ決定過程(pomdp)としてモデル化される。既存のサンプル効率のアルゴリズムは、状態と観測空間が有限となる表の設定に制限される。本稿では,関数近似と部分可観測性の間の張力に取り組む最初の試みを行う。具体的には、線形関数近似を持つ不完全POMDPのクラスに焦点を当て、状態と観測空間を無限にすることができる。そのようなPOMDPに対して、最適ポリシーと値関数は有限メモリベルマン作用素の列によって特徴づけられることを示す。本稿では,これらの演算子の楽観的推定をカーネルヒルベルト空間(rkhs)埋め込みを再現することで構成するrlアルゴリズムを提案する。さらに,提案アルゴリズムが$\varepsilon$-optimal policy with $\tilde O (1/\varepsilon^2)$ episodes of Explorion を求めることを理論的に証明した。また、このサンプルの複雑さは、POMDP多項式の固有次元にのみ依存し、状態と観測空間のサイズに依存しない。我々の知る限り、関数近似を用いたPOMDPのための最初の実証可能なサンプル効率アルゴリズムを開発した。

関連論文リスト

Enabling Probabilistic Learning on Manifolds through Double Diffusion Maps [3.081704060720176]
本稿では,PLoM(Probabilistic Learning on Manifolds)アプローチの拡張に基づく確率的サンプリングのための生成学習フレームワークを提案する。我々は、システム全体の動的複雑さを保ちながら、潜在空間で直接、全順序ISDEを解く。
論文参考訳（メタデータ） (2025-06-02T20:58:49Z)
Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。適切なアクションにクレジットを割り当てるには? 本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文参考訳（メタデータ） (2025-05-26T17:44:08Z)
Nonparametric Sparse Online Learning of the Koopman Operator [11.710740395697128]
クープマン作用素は、一般的な非線形力学系の力学を表現する強力なフレームワークを提供する。クープマン作用素を学ぶためのデータ駆動手法は、選択された関数空間がシステム力学の下で閉じていると仮定するのが一般的である。演算子近似アルゴリズムを用いて、演算子を反復的に学習し、表現の複雑さの制御を行う。
論文参考訳（メタデータ） (2025-01-27T20:48:10Z)
Nonparametric Sparse Online Learning of the Koopman Operator [11.710740395697128]
クープマン作用素は、一般的な非線形力学系の力学を表現する強力なフレームワークを提供する。クープマン作用素を学ぶためのデータ駆動手法は、選択された関数空間がシステム力学の下で閉じていると仮定するのが一般的である。演算子近似アルゴリズムを用いて、演算子を反復的に学習し、表現の複雑さの制御を行う。
論文参考訳（メタデータ） (2024-05-13T02:18:49Z)
Spectral Algorithms on Manifolds through Diffusion [1.7227952883644062]
再生カーネル空間におけるスペクトルアルゴリズムの収束性能について検討する。一般化ノルムに関する厳密な収束上限を導出するために積分作用素技術を用いる。本研究は,高次元近似のより広い文脈において,スペクトルアルゴリズムが実質的に重要であることを確認した。
論文参考訳（メタデータ） (2024-03-06T12:43:53Z)
Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文参考訳（メタデータ） (2023-07-08T15:41:48Z)
Kernel-based off-policy estimation without overlap: Instance optimality beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文参考訳（メタデータ） (2023-01-16T02:57:37Z)
Statistical Optimality of Divide and Conquer Kernel-based Functional Linear Regression [1.7227952883644062]
本稿では,対象関数が基礎となるカーネル空間に存在しないシナリオにおいて,分割・コンカレント推定器の収束性能について検討する。分解に基づくスケーラブルなアプローチとして、関数線形回帰の分割・収束推定器は、時間とメモリにおけるアルゴリズムの複雑さを大幅に減らすことができる。
論文参考訳（メタデータ） (2022-11-20T12:29:06Z)
Computationally Efficient PAC RL in POMDPs with Latent Determinism and Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文参考訳（メタデータ） (2022-06-24T05:13:35Z)
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文参考訳（メタデータ） (2022-06-01T23:26:51Z)
Embed to Control Partially Observed Systems: Representation Learning with Provable Sample Efficiency [105.17746223041954]
部分的に観察されたマルコフ決定過程(POMDP)における強化学習は2つの課題に直面している。しばしば、未来を予測するのに完全な歴史を要し、地平線と指数関数的にスケールするサンプルの複雑さを誘導する。本稿では,2段階の表現を最適化しながら学習するETC(Embed to Control)という強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-26T16:34:46Z)
Non-Linear Reinforcement Learning in Large Action Spaces: Structural Conditions and Sample-efficiency of Posterior Sampling [28.371541697552928]
一般作用空間を線形埋め込み性条件下で保持する非線形関数近似の最初の結果を示す。最悪の場合,RL問題のランクパラメータでスケールが保証される。
論文参考訳（メタデータ） (2022-03-15T20:50:26Z)
Posterior-Aided Regularization for Likelihood-Free Inference [23.708122045184698]
後補助正規化(PAR)は,モデル構造に関係なく,密度推定器の学習に適用可能である。単一のニューラルネットワークを用いて逆KL項と相互情報項の両方を推定するPARの統一推定方法を提供する。
論文参考訳（メタデータ） (2021-02-15T16:59:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。