論文の概要: Optimistic MLE -- A Generic Model-based Algorithm for Partially
Observable Sequential Decision Making
- arxiv url: http://arxiv.org/abs/2209.14997v1
- Date: Thu, 29 Sep 2022 17:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 15:51:36.968726
- Title: Optimistic MLE -- A Generic Model-based Algorithm for Partially
Observable Sequential Decision Making
- Title(参考訳): Optimistic MLE -- 部分観測可能なシーケンス決定のためのジェネリックモデルベースアルゴリズム
- Authors: Qinghua Liu, Praneeth Netrapalli, Csaba Szepesvari, Chi Jin
- Abstract要約: 本稿では,一般的な逐次決定のための簡単な学習アルゴリズムを提案する。
我々は,OMLEが極めて豊富な逐次的意思決定問題のクラスにおいて,ほぼ最適ポリシーを学習していることを証明する。
- 参考スコア(独自算出の注目度): 48.87943416098096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a simple efficient learning algorithms for general
sequential decision making. The algorithm combines Optimism for exploration
with Maximum Likelihood Estimation for model estimation, which is thus named
OMLE. We prove that OMLE learns the near-optimal policies of an enormously rich
class of sequential decision making problems in a polynomial number of samples.
This rich class includes not only a majority of known tractable model-based
Reinforcement Learning (RL) problems (such as tabular MDPs, factored MDPs, low
witness rank problems, tabular weakly-revealing/observable POMDPs and
multi-step decodable POMDPs), but also many new challenging RL problems
especially in the partially observable setting that were not previously known
to be tractable.
Notably, the new problems addressed by this paper include (1) observable
POMDPs with continuous observation and function approximation, where we achieve
the first sample complexity that is completely independent of the size of
observation space; (2) well-conditioned low-rank sequential decision making
problems (also known as Predictive State Representations (PSRs)), which include
and generalize all known tractable POMDP examples under a more intrinsic
representation; (3) general sequential decision making problems under SAIL
condition, which unifies our existing understandings of model-based RL in both
fully observable and partially observable settings. SAIL condition is
identified by this paper, which can be viewed as a natural generalization of
Bellman/witness rank to address partial observability.
- Abstract(参考訳): 本稿では,一般的な逐次決定のための簡単な学習アルゴリズムを提案する。
このアルゴリズムは、探索のための最適化とモデル推定のための最大類似度推定を組み合わせる。
我々は,OMLEが多項式数のサンプルにおいて,非常にリッチな逐次決定問題のクラスをほぼ最適に扱うことを証明した。
このリッチクラスには、既知のトラクタブルモデルベースの強化学習(RL)問題の大部分(表型MDP、因子付きMDP、低証人ランク問題、表型弱い展開/観測可能なPOMDP、複数ステップのデオード可能なPOMDPなど)だけでなく、従来はトラクタブルでない部分観測可能な設定において、多くの新しいRL問題も含まれている。
Notably, the new problems addressed by this paper include (1) observable POMDPs with continuous observation and function approximation, where we achieve the first sample complexity that is completely independent of the size of observation space; (2) well-conditioned low-rank sequential decision making problems (also known as Predictive State Representations (PSRs)), which include and generalize all known tractable POMDP examples under a more intrinsic representation; (3) general sequential decision making problems under SAIL condition, which unifies our existing understandings of model-based RL in both fully observable and partially observable settings.
本稿では,ベルマン/ウィットネスランクの自然な一般化として,部分的可観測性に対処するためのセイル条件を考察する。
関連論文リスト
- GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Partially Observable RL with B-Stability: Unified Structural Condition
and Sharp Sample-Efficient Algorithms [25.658930892561735]
本稿では、予測状態表現(PSR)の一般設定における部分観測可能RLの3つの側面について述べる。
本稿では,emphB安定性(emphB-stability)と呼ばれるPSRの自然かつ統一的な構造条件を提案する。
本稿では,B-stable PSRが関連する問題パラメータのサンプルで学習できることを示し,上記のサブクラスをインスタンス化すると,サンプルの複雑さが向上することを示した。
論文 参考訳(メタデータ) (2022-09-29T17:51:51Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - When Is Partially Observable Reinforcement Learning Not Scary? [30.754810416907123]
本研究は, 部分的に観測可能な決定過程(POMDP)を学習するには, 最悪の場合, 指数的なサンプル数を必要とすることを示す。
これは、オーバーコンプリートPOMDPの相互作用から学習するための、証明可能な最初の結果である。
論文 参考訳(メタデータ) (2022-04-19T16:08:28Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit
Partial Observability [92.95794652625496]
総合化は強化学習システムの展開における中心的な課題である。
限られた訓練条件から検査条件を特定できないように一般化することは、暗黙的な部分観察可能性をもたらすことを示す。
我々は、RLにおける一般化の問題を、部分的に観察されたマルコフ決定過程の解法として再考した。
論文 参考訳(メタデータ) (2021-07-13T17:59:25Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。