論文の概要: When Is Partially Observable Reinforcement Learning Not Scary?
- arxiv url: http://arxiv.org/abs/2204.08967v1
- Date: Tue, 19 Apr 2022 16:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 13:12:35.480076
- Title: When Is Partially Observable Reinforcement Learning Not Scary?
- Title(参考訳): 部分的に観察可能な強化学習は怖くないのか?
- Authors: Qinghua Liu, Alan Chung, Csaba Szepesv\'ari, Chi Jin
- Abstract要約: 本研究は, 部分的に観測可能な決定過程(POMDP)を学習するには, 最悪の場合, 指数的なサンプル数を必要とすることを示す。
これは、オーバーコンプリートPOMDPの相互作用から学習するための、証明可能な最初の結果である。
- 参考スコア(独自算出の注目度): 30.754810416907123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applications of Reinforcement Learning (RL), in which agents learn to make a
sequence of decisions despite lacking complete information about the latent
states of the controlled system, that is, they act under partial observability
of the states, are ubiquitous. Partially observable RL can be notoriously
difficult -- well-known information-theoretic results show that learning
partially observable Markov decision processes (POMDPs) requires an exponential
number of samples in the worst case. Yet, this does not rule out the existence
of large subclasses of POMDPs over which learning is tractable.
In this paper we identify such a subclass, which we call weakly revealing
POMDPs. This family rules out the pathological instances of POMDPs where
observations are uninformative to a degree that makes learning hard. We prove
that for weakly revealing POMDPs, a simple algorithm combining optimism and
Maximum Likelihood Estimation (MLE) is sufficient to guarantee polynomial
sample complexity. To the best of our knowledge, this is the first provably
sample-efficient result for learning from interactions in overcomplete POMDPs,
where the number of latent states can be larger than the number of
observations.
- Abstract(参考訳): 強化学習(rl)の応用は、エージェントが制御システムの潜在状態、すなわち状態の部分的可観測性の下で振る舞う状態に関する完全な情報を欠いているにもかかわらず、一連の意思決定を学習する。
有名な情報理論の結果は、部分的に観測可能なマルコフ決定プロセス(POMDP)の学習には、最悪の場合、指数的なサンプル数が必要であることを示している。
しかし、これは学習が抽出可能なPOMDPの大きなサブクラスの存在を除外するものではない。
本稿では,そのようなサブクラスを,弱明化pomdpと呼ぶ。
この家族は、観察が学習を難しくする程度に非形式的であるPOMDPの病理例を除外する。
我々は,POMDPを弱解化するために,最適化と最大類似度推定(MLE)を組み合わせた単純なアルゴリズムが,多項式サンプルの複雑性を保証するのに十分であることを証明した。
我々の知る限りでは、これは、観測数よりも潜伏状態の数が大きい過完全POMDPの相互作用から学習するための、証明可能なサンプル効率の最初の結果である。
関連論文リスト
- Sample-Efficient Learning of POMDPs with Multiple Observations In
Hindsight [105.6882315781987]
本稿では,部分観測可能なマルコフ決定過程(POMDP)における学習のサンプル効率について検討する。
「ゲームプレイにおけるローディングのような現実世界の設定に動機付けられて、後視における多重観察と呼ばれる強化されたフィードバックモデルを提案する。」
我々は,POMDPの2つのサブクラスに対して,サンプル効率の学習が可能であることを示した。
論文 参考訳(メタデータ) (2023-07-06T09:39:01Z) - Learning in POMDPs is Sample-Efficient with Hindsight Observability [36.66596305441365]
POMDPは、幅広い意思決定問題を捉えているが、難易度の結果は、学習が本質的に部分観測可能であるため、単純な設定でも難易度が高いことを示唆している。
多くの現実的な問題では、より多くの情報が明らかにされるか、学習プロセスのどこかの時点で計算できる。
我々は、学習者が学習中にのみ潜伏状態を明らかにするPOMDPとして設定(setshort)を定式化する。
論文 参考訳(メタデータ) (2023-01-31T18:54:36Z) - Optimistic MLE -- A Generic Model-based Algorithm for Partially
Observable Sequential Decision Making [48.87943416098096]
本稿では,一般的な逐次決定のための簡単な学習アルゴリズムを提案する。
我々は,OMLEが極めて豊富な逐次的意思決定問題のクラスにおいて,ほぼ最適ポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-09-29T17:56:25Z) - Partially Observable RL with B-Stability: Unified Structural Condition
and Sharp Sample-Efficient Algorithms [25.658930892561735]
本稿では、予測状態表現(PSR)の一般設定における部分観測可能RLの3つの側面について述べる。
本稿では,emphB安定性(emphB-stability)と呼ばれるPSRの自然かつ統一的な構造条件を提案する。
本稿では,B-stable PSRが関連する問題パラメータのサンプルで学習できることを示し,上記のサブクラスをインスタンス化すると,サンプルの複雑さが向上することを示した。
論文 参考訳(メタデータ) (2022-09-29T17:51:51Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit
Partial Observability [92.95794652625496]
総合化は強化学習システムの展開における中心的な課題である。
限られた訓練条件から検査条件を特定できないように一般化することは、暗黙的な部分観察可能性をもたらすことを示す。
我々は、RLにおける一般化の問題を、部分的に観察されたマルコフ決定過程の解法として再考した。
論文 参考訳(メタデータ) (2021-07-13T17:59:25Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。