論文の概要: Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP
- arxiv url: http://arxiv.org/abs/2306.12356v1
- Date: Wed, 21 Jun 2023 16:04:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 12:49:50.439960
- Title: Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP
- Title(参考訳): 低ランクPMDPにおけるトラクタブルプランニングによる効率の良い表現学習
- Authors: Jiacheng Guo, Zihao Li, Huazheng Wang, Mengdi Wang, Zhuoran Yang,
Xuezhou Zhang
- Abstract要約: 部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
- 参考スコア(独自算出の注目度): 81.00800920928621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study representation learning in partially observable
Markov Decision Processes (POMDPs), where the agent learns a decoder function
that maps a series of high-dimensional raw observations to a compact
representation and uses it for more efficient exploration and planning.
We focus our attention on the sub-classes of \textit{$\gamma$-observable} and
\textit{decodable POMDPs}, for which it has been shown that statistically
tractable learning is possible, but there has not been any computationally
efficient algorithm. We first present an algorithm for decodable POMDPs that
combines maximum likelihood estimation (MLE) and optimism in the face of
uncertainty (OFU) to perform representation learning and achieve efficient
sample complexity, while only calling supervised learning computational
oracles. We then show how to adapt this algorithm to also work in the broader
class of $\gamma$-observable POMDPs.
- Abstract(参考訳): 本稿では,部分観測可能なマルコフ決定過程(POMDP)における表現学習について検討する。そこでエージェントは,一連の高次元の生観測をコンパクトな表現にマッピングし,より効率的な探索と計画を行うデコーダ関数を学習する。
我々は,統計的に抽出可能な学習が可能であることが示されているが,計算効率のよいアルゴリズムは存在していない,というような,‘textit{$\gamma$-observable} と‘textit{decodable POMDPs} のサブクラスに注目する。
まず,不確実性(OFU)に直面して最大誤差推定(MLE)と楽観性を組み合わせて,表現学習を行い,効率的なサンプル複雑性を実現するアルゴリズムを提案する。
次に、このアルゴリズムを$\gamma$-observable POMDPのより広範なクラスで機能させる方法を示す。
関連論文リスト
- Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Learning in POMDPs is Sample-Efficient with Hindsight Observability [36.66596305441365]
POMDPは、幅広い意思決定問題を捉えているが、難易度の結果は、学習が本質的に部分観測可能であるため、単純な設定でも難易度が高いことを示唆している。
多くの現実的な問題では、より多くの情報が明らかにされるか、学習プロセスのどこかの時点で計算できる。
我々は、学習者が学習中にのみ潜伏状態を明らかにするPOMDPとして設定(setshort)を定式化する。
論文 参考訳(メタデータ) (2023-01-31T18:54:36Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。