論文の概要: Learning in Observable POMDPs, without Computationally Intractable
Oracles
- arxiv url: http://arxiv.org/abs/2206.03446v1
- Date: Tue, 7 Jun 2022 17:05:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 13:52:48.949856
- Title: Learning in Observable POMDPs, without Computationally Intractable
Oracles
- Title(参考訳): 計算的に難解なOracleなしで観測可能なPOMDPで学ぶ
- Authors: Noah Golowich, Ankur Moitra, Dhruv Rohatgi
- Abstract要約: 我々は,PMDPのための最初のオラクルフリー学習アルゴリズムを合理的な仮定で開発する。
具体的には、「観測可能」なPOMDPで学習するための準ポロリノミカル時間終端アルゴリズムを与えるが、観測可能性とは、状態上のよく分断された分布が観察よりもよく分断された分布を誘導するという仮定である。
- 参考スコア(独自算出の注目度): 23.636033995089587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much of reinforcement learning theory is built on top of oracles that are
computationally hard to implement. Specifically for learning near-optimal
policies in Partially Observable Markov Decision Processes (POMDPs), existing
algorithms either need to make strong assumptions about the model dynamics
(e.g. deterministic transitions) or assume access to an oracle for solving a
hard optimistic planning or estimation problem as a subroutine. In this work we
develop the first oracle-free learning algorithm for POMDPs under reasonable
assumptions. Specifically, we give a quasipolynomial-time end-to-end algorithm
for learning in "observable" POMDPs, where observability is the assumption that
well-separated distributions over states induce well-separated distributions
over observations. Our techniques circumvent the more traditional approach of
using the principle of optimism under uncertainty to promote exploration, and
instead give a novel application of barycentric spanners to constructing policy
covers.
- Abstract(参考訳): 強化学習理論の多くは、計算処理が難しいoracle上に構築されている。
特に、部分観測可能なマルコフ決定過程(POMDP)における準最適ポリシーを学習するためには、既存のアルゴリズムはモデル力学(例えば決定論的遷移)について強い仮定をする必要があるか、あるいは厳密な楽観的な計画や推定問題をサブルーチンとして解くためのオラクルへのアクセスを仮定する必要がある。
そこで本研究では,PMDPのための最初のオラクルフリー学習アルゴリズムを合理的な仮定で開発する。
具体的には、「観測可能」なPOMDPで学習するための準ポロリノミカル時間終端アルゴリズムを与えるが、観測可能性とは、状態上のよく分断された分布が観察よりもよく分断された分布を誘導するという仮定である。
我々の技術は、不確実性の下での楽観主義の原理を探索を促進する伝統的なアプローチを回避し、代わりに、政策カバーの構築にバリュセントリックスパンナーの新たな応用を与える。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Risk-sensitive Markov Decision Process and Learning under General
Utility Functions [3.6260136172126667]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
累積報酬の空間上でのエプシロン被覆を用いた修正値アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual
Bandits [82.28442917447643]
悲観的OPOのための最初の一般オラクル効率アルゴリズムを提案する。
従来の悲観的アプローチと類似した統計的保証を得る。
我々は多種多様な構成の非正規化OPOに対して優位性を示す。
論文 参考訳(メタデータ) (2023-06-13T17:29:50Z) - Planning in Observable POMDPs in Quasipolynomial Time [21.03037504572896]
我々は観測可能なPOMDPの計画のための準ポリノミカル時間アルゴリズムを開発した。
我々は、状態上のよく分断された分布が観察上のよく分断された分布をもたらすと仮定する。
観測可能なPOMDPの指数時間仮説の下での計画に適合する硬さを実証する。
論文 参考訳(メタデータ) (2022-01-12T23:16:37Z) - Pessimistic Model-based Offline RL: PAC Bounds and Posterior Sampling
under Partial Coverage [33.766012922307084]
一般関数近似を用いたモデルに基づくオフライン強化学習について検討する。
本稿では、一般関数クラスを活用し、ペシミズムを符号化するために制約を用いる制約付きポリシー最適化(CPPO)というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T16:30:01Z) - Sublinear Regret for Learning POMDPs [5.675955495285045]
部分的に観測可能なマルコフ決定過程(POMDP)のためのモデルに基づく非割当強化学習について検討する。
そこで本研究では,隠れマルコフモデルに対するスペクトル法によるモーメント推定に基づく学習アルゴリズムを提案する。
我々は,提案した学習アルゴリズムに対して,$O(T2/3sqrtlog T)$の後悔境界を定め,そこでは$T$が学習の地平線となる。
論文 参考訳(メタデータ) (2021-07-08T06:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。