論文の概要: Online Learning for Unknown Partially Observable MDPs
- arxiv url: http://arxiv.org/abs/2102.12661v1
- Date: Thu, 25 Feb 2021 03:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-27 05:39:31.151857
- Title: Online Learning for Unknown Partially Observable MDPs
- Title(参考訳): 未知部分可観測MDPのオンライン学習
- Authors: Mehdi Jafarnia-Jahromi, Rahul Jain, Ashutosh Nayyar
- Abstract要約: 遷移モデルが未知の無限水平平均コストPMDPを観測モデルとして検討する。
自然後サンプリングに基づく強化学習アルゴリズム(POMDP-PSRL)を提案し、$T$が時空である場合に$O(T2/3)$後悔を達成することを示した。
- 参考スコア(独自算出の注目度): 11.458853556386797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving Partially Observable Markov Decision Processes (POMDPs) is hard.
Learning optimal controllers for POMDPs when the model is unknown is harder.
Online learning of optimal controllers for unknown POMDPs, which requires
efficient learning using regret-minimizing algorithms that effectively tradeoff
exploration and exploitation, is even harder, and no solution exists currently.
In this paper, we consider infinite-horizon average-cost POMDPs with unknown
transition model, though known observation model. We propose a natural
posterior sampling-based reinforcement learning algorithm (POMDP-PSRL) and show
that it achieves $O(T^{2/3})$ regret where $T$ is the time horizon. To the best
of our knowledge, this is the first online RL algorithm for POMDPs and has
sub-linear regret.
- Abstract(参考訳): 部分観測可能なマルコフ決定過程(POMDP)の解決は困難である。
モデルが未知のPOMDPのための最適コントローラの学習は困難である。
未知のPOMDPのための最適コントローラのオンライン学習は、探索と悪用を効果的にトレードオフする後悔最小化アルゴリズムを用いて効率よく学習する必要がある。
本稿では,未知の遷移モデルを持つ無限水平平均コストPMDPについて考察する。
本稿では,自然後続サンプリングに基づく強化学習アルゴリズム (pomdp-psrl) を提案し,$t$ が時間軸である場合には$o(t^{2/3}) を後悔することを示す。
私たちの知る限りでは、これはPOMDPのための初めてのオンラインRLアルゴリズムであり、サブ線形後悔の種である。
関連論文リスト
- Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Posterior Sampling-based Online Learning for Episodic POMDPs [5.797837329787459]
本研究では,遷移モデルと観測モデルが未知のエピソードPOMDPに対するオンライン学習問題を考察する。
ポストリアサンプリングに基づくPOMDPのための強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-16T06:41:13Z) - Learning Optimal Admission Control in Partially Observable Queueing
Networks [4.254099382808599]
本稿では、部分的に観測可能な待ち行列ネットワークにおいて、最適入場制御ポリシーを学習する効率的な強化学習アルゴリズムを提案する。
我々のアルゴリズムは、ネットワーク内のジョブの最大数のみにサブラインナリーに依存していることを後悔している。
論文 参考訳(メタデータ) (2023-08-04T15:40:23Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Near-Optimal Reward-Free Exploration for Linear Mixture MDPs with
Plug-in Solver [32.212146650873194]
報酬信号のガイダンスを使わずにRLモデルを効率的に学習するためのアプローチを提案する。
特に、私たちは、探索フェーズにおけるモデル学習に集中するプラグインソルバアプローチを採用しています。
新たな探索アルゴリズムを確立することで,プラグインアプローチは環境との相互作用を$tildeO(d2H3/epsilon2)$とすることでモデルを学習することを示す。
論文 参考訳(メタデータ) (2021-10-07T07:59:50Z) - Sublinear Regret for Learning POMDPs [5.675955495285045]
部分的に観測可能なマルコフ決定過程(POMDP)のためのモデルに基づく非割当強化学習について検討する。
そこで本研究では,隠れマルコフモデルに対するスペクトル法によるモーメント推定に基づく学習アルゴリズムを提案する。
我々は,提案した学習アルゴリズムに対して,$O(T2/3sqrtlog T)$の後悔境界を定め,そこでは$T$が学習の地平線となる。
論文 参考訳(メタデータ) (2021-07-08T06:59:39Z) - Provably Efficient Reinforcement Learning for Discounted MDPs with
Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。
本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。
以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-23T17:08:54Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。