論文の概要: Sample-Efficient Reinforcement Learning of Undercomplete POMDPs
- arxiv url: http://arxiv.org/abs/2006.12484v2
- Date: Sun, 25 Oct 2020 03:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 04:27:38.654571
- Title: Sample-Efficient Reinforcement Learning of Undercomplete POMDPs
- Title(参考訳): 不完全POMDPのサンプル効率強化学習
- Authors: Chi Jin, Sham M. Kakade, Akshay Krishnamurthy, Qinghua Liu
- Abstract要約: この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
- 参考スコア(独自算出の注目度): 91.40308354344505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partial observability is a common challenge in many reinforcement learning
applications, which requires an agent to maintain memory, infer latent states,
and integrate this past information into exploration. This challenge leads to a
number of computational and statistical hardness results for learning general
Partially Observable Markov Decision Processes (POMDPs). This work shows that
these hardness barriers do not preclude efficient reinforcement learning for
rich and interesting subclasses of POMDPs. In particular, we present a
sample-efficient algorithm, OOM-UCB, for episodic finite undercomplete POMDPs,
where the number of observations is larger than the number of latent states and
where exploration is essential for learning, thus distinguishing our results
from prior works. OOM-UCB achieves an optimal sample complexity of
$\tilde{\mathcal{O}}(1/\varepsilon^2)$ for finding an $\varepsilon$-optimal
policy, along with being polynomial in all other relevant quantities. As an
interesting special case, we also provide a computationally and statistically
efficient algorithm for POMDPs with deterministic state transitions.
- Abstract(参考訳): 部分的可観測性は、多くの強化学習アプリケーションにおいて共通の課題であり、エージェントがメモリを維持し、潜在状態を推測し、過去の情報を探索に統合する必要がある。
この課題は、一般に部分的に観測可能なマルコフ決定過程(POMDP)を学習するための多くの計算的および統計的硬度結果をもたらす。
この研究は、これらの硬度障壁が、PMDPの豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示す。
特に,観測回数が潜伏状態の数よりも大きく,また探索が学習に欠かせないため,先行研究と区別できるような,エピソード有限不完全POMDPに対するサンプル効率のアルゴリズムOOM-UCBを提案する。
oom-ucb は $\varepsilon$-optimal policy を見つけるために$\tilde{\mathcal{o}}(1/\varepsilon^2)$ の最適なサンプル複雑性を達成する。
興味深い特別な場合として、決定論的状態遷移を持つpomdpに対する計算量および統計効率のよいアルゴリズムも提供する。
関連論文リスト
- Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Embed to Control Partially Observed Systems: Representation Learning with Provable Sample Efficiency [105.17746223041954]
部分的に観察されたマルコフ決定過程(POMDP)における強化学習は2つの課題に直面している。
しばしば、未来を予測するのに完全な歴史を要し、地平線と指数関数的にスケールするサンプルの複雑さを誘導する。
本稿では,2段階の表現を最適化しながら学習するETC(Embed to Control)という強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-26T16:34:46Z) - When Is Partially Observable Reinforcement Learning Not Scary? [30.754810416907123]
本研究は, 部分的に観測可能な決定過程(POMDP)を学習するには, 最悪の場合, 指数的なサンプル数を必要とすることを示す。
これは、オーバーコンプリートPOMDPの相互作用から学習するための、証明可能な最初の結果である。
論文 参考訳(メタデータ) (2022-04-19T16:08:28Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。