論文の概要: Flow-based Recurrent Belief State Learning for POMDPs
- arxiv url: http://arxiv.org/abs/2205.11051v1
- Date: Mon, 23 May 2022 05:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 16:01:28.566736
- Title: Flow-based Recurrent Belief State Learning for POMDPs
- Title(参考訳): 流れに基づくPOMDPの繰り返し状態学習
- Authors: Xiaoyu Chen, Yao Mu, Ping Luo, Shengbo Li, Jianyu Chen
- Abstract要約: 部分的に観測可能なマルコフ決定プロセス(POMDP)は、実世界のシーケンシャルな意思決定プロセスをモデル化するための原則的で汎用的なフレームワークを提供する。
主な課題は、観測不能な環境状態の確率分布である信念状態をどのように正確に取得するかである。
近年のディープラーニング技術の進歩は、良き信念状態を学ぶ大きな可能性を示している。
- 参考スコア(独自算出の注目度): 20.860726518161204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially Observable Markov Decision Process (POMDP) provides a principled
and generic framework to model real world sequential decision making processes
but yet remains unsolved, especially for high dimensional continuous space and
unknown models. The main challenge lies in how to accurately obtain the belief
state, which is the probability distribution over the unobservable environment
states given historical information. Accurately calculating this belief state
is a precondition for obtaining an optimal policy of POMDPs. Recent advances in
deep learning techniques show great potential to learn good belief states.
However, existing methods can only learn approximated distribution with limited
flexibility. In this paper, we introduce the \textbf{F}l\textbf{O}w-based
\textbf{R}ecurrent \textbf{BE}lief \textbf{S}tate model (FORBES), which
incorporates normalizing flows into the variational inference to learn general
continuous belief states for POMDPs. Furthermore, we show that the learned
belief states can be plugged into downstream RL algorithms to improve
performance. In experiments, we show that our methods successfully capture the
complex belief states that enable multi-modal predictions as well as high
quality reconstructions, and results on challenging visual-motor control tasks
show that our method achieves superior performance and sample efficiency.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、実世界の逐次決定過程をモデル化する原則的で汎用的なフレームワークを提供するが、特に高次元連続空間や未知のモデルでは未解決のままである。
主な課題は、歴史的情報が与えられた観測不可能な環境状態の確率分布である信念状態の正確な取得方法である。
この信念状態を正確に計算することは、POMDPの最適ポリシーを得るための前提条件である。
近年のディープラーニング技術の進歩は、良き信念状態を学ぶ大きな可能性を示している。
しかし、既存の手法では、柔軟性に制限のある近似分布しか学習できない。
本稿では, 正規化フローを変分推論に組み込んでPOMDPの一般的な連続的信念状態を学ぶ, \textbf{F}l\textbf{O}w-based \textbf{R}ecurrent \textbf{BE}lief \textbf{S}tate model (FORBES)を紹介する。
さらに,学習した信念状態を下流RLアルゴリズムにプラグインすることで,性能を向上させることができることを示す。
実験では,マルチモーダルな予測と高品質な再現が可能な複雑な信念状態の抽出に成功し,視覚運動制御タスクの課題に対して,本手法が優れた性能とサンプル効率を実現することを示す。
関連論文リスト
- FNP: Fourier Neural Processes for Arbitrary-Resolution Data Assimilation [58.149902193341816]
本稿では, テクティット・テキストbfFourier Neural Processs (FNP) を用いて, テクティット・arbitrary- resolution データ同化法を提案する。
固定解像度でトレーニングしたFNPは, 微調整を伴わずに, 分布外分解能と観測情報再構成タスクとの同化を直接処理できる。
論文 参考訳(メタデータ) (2024-06-03T12:24:24Z) - Streamflow Prediction with Uncertainty Quantification for Water Management: A Constrained Reasoning and Learning Approach [27.984958596544278]
本稿では、論理的制約として表される物理法則を、ディープニューラルネットワークの層として統合する制約付き推論と学習(CRL)アプローチについて検討する。
そこで本研究では,深層モデルの一般化精度を向上させるため,理論的に基礎的なトレーニング手法を開発した。
論文 参考訳(メタデータ) (2024-05-31T18:53:53Z) - Probabilistic Inference in Reinforcement Learning Done Right [37.31057328219418]
強化学習における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。
この量を近似するための従来のアプローチは任意に貧弱であり、真の統計的推論を実装しないアルゴリズムに繋がる。
我々はまず、この量が、後悔によって測定されるように、効率的に探索するポリシーを生成するために実際に利用できることを明らかにした。
論文 参考訳(メタデータ) (2023-11-22T10:23:14Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Knowing the Past to Predict the Future: Reinforcement Virtual Learning [29.47688292868217]
近年,強化学習(RL)に基づく制御システムが注目されている。
本稿では,RLモデルが仮想空間内で自分自身で進化できるような,コスト効率のよいフレームワークを提案する。
提案フレームワークは、ステップバイステップのRLモデルにより、将来の状態を予測し、長期的意思決定のための最適なアクションを選択することができる。
論文 参考訳(メタデータ) (2022-11-02T16:48:14Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。