論文の概要: Approximation Methods for Partially Observed Markov Decision Processes
(POMDPs)
- arxiv url: http://arxiv.org/abs/2108.13965v1
- Date: Tue, 31 Aug 2021 16:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 15:46:12.635072
- Title: Approximation Methods for Partially Observed Markov Decision Processes
(POMDPs)
- Title(参考訳): 部分観測マルコフ決定過程(POMDP)の近似法
- Authors: Caleb M. Bowyer
- Abstract要約: POMDPは、真の基礎状態が外部の観測者にとって完全には知られていないシステムにとって有用なモデルである。
このサーベイは有限状態POMDPの起源、理論、近似を中心にしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: POMDPs are useful models for systems where the true underlying state is not
known completely to an outside observer; the outside observer incompletely
knows the true state of the system, and observes a noisy version of the true
system state. When the number of system states is large in a POMDP that often
necessitates the use of approximation methods to obtain near optimal solutions
for control. This survey is centered around the origins, theory, and
approximations of finite-state POMDPs. In order to understand POMDPs, it is
required to have an understanding of finite-state Markov Decision Processes
(MDPs) in \autoref{mdp} and Hidden Markov Models (HMMs) in \autoref{hmm}. For
this background theory, I provide only essential details on MDPs and HMMs and
leave longer expositions to textbook treatments before diving into the main
topics of POMDPs. Once the required background is covered, the POMDP is
introduced in \autoref{pomdp}. The origins of the POMDP are explained in the
classical papers section \autoref{classical}. Once the high computational
requirements are understood from the exact methodological point of view, the
main approximation methods are surveyed in \autoref{approximations}. Then, I
end the survey with some new research directions in \autoref{conclusion}.
- Abstract(参考訳): POMDPは、真の基底状態が外部のオブザーバに完全には知られていないシステムにおいて有用なモデルであり、外部のオブザーバはシステムの真の状態を不完全に知っており、真のシステム状態のノイズのあるバージョンを観測する。
系状態の数が pomdp において大きい場合、制御の最適解を得るのに近似法を用いることがしばしば必要となる。
この調査は有限状態POMDPの起源、理論、近似を中心にしている。
POMDPを理解するためには、 \autoref{mdp} における有限状態マルコフ決定過程 (MDPs) と \autoref{hmm} における隠れマルコフモデル (HMMs) を理解する必要がある。
本論では,PMDP と HMM についてのみ本質的な詳細を述べるとともに,PMDP のメイントピックに飛び込む前に,教科書処理に長い解説を残している。
必要なバックグラウンドがカバーされると、POMDPは \autoref{pomdp} に導入される。
POMDPの起源は古典的な論文のセクション \autoref{classical} で説明されている。
計算量の高い要求が厳密な方法論的観点から理解されると、主な近似法は \autoref{approximations} で調査される。
次に、私は調査を \autoref{conclusion} で新しい研究の方向性で終える。
関連論文リスト
- 1-2-3-Go! Policy Synthesis for Parameterized Markov Decision Processes via Decision-Tree Learning and Generalization [0.8795040582681393]
特に、パラメータ化されたマルコフ決定過程をインスタンス化するときに状態空間は極端に大きくなる。
我々は,そのような巨大なMDPに対して合理的な政策を得るための学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-23T21:57:05Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Prospective Side Information for Latent MDPs [80.00842638151558]
本報告では,各エピソードの開始時に,エージェントが付加的,弱く露呈する情報を受信した場合に,予測側情報を用いたLMDPのクラスについて検討する。
驚くべきことに、この問題は、部分的に観察された環境のために設計された現代の設定やアルゴリズムによって捉えられていない。
すると、サンプル効率の良いアルゴリズムは、標準の$Omega(K2/3)$-regretとは対照的に、少なくとも$Omega(K2/3)$-regretを被ることを確立し、一致する上限を持つアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-10-11T15:37:31Z) - Intermittently Observable Markov Decision Processes [26.118176084782842]
本稿では,制御者が信頼できない通信チャネルを通じてプロセスの状態情報を知覚するシナリオについて考察する。
地平線全体にわたる状態情報の伝達はベルヌーイ損失過程としてモデル化される。
木MDPに対する2つの有限状態近似を開発し,その近似を効率的に求める。
論文 参考訳(メタデータ) (2023-02-23T03:38:03Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - ChronosPerseus: Randomized Point-based Value Iteration with Importance
Sampling for POSMDPs [2.3204178451683264]
強化学習では、エージェントはマルコフ決定プロセス(MDP)でモデル化された環境をうまく利用した。
多くの問題領域では、エージェントはその後の決定までうるさい観察やランダムな時間に悩まされることがある。
本稿では,部分観測可能な半マルコフ決定プロセス (POSMDP) が未知の時間的側面に対処するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-07-16T03:31:47Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Flow-based Recurrent Belief State Learning for POMDPs [20.860726518161204]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、実世界のシーケンシャルな意思決定プロセスをモデル化するための原則的で汎用的なフレームワークを提供する。
主な課題は、観測不能な環境状態の確率分布である信念状態をどのように正確に取得するかである。
近年のディープラーニング技術の進歩は、良き信念状態を学ぶ大きな可能性を示している。
論文 参考訳(メタデータ) (2022-05-23T05:29:55Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z) - Point-Based Methods for Model Checking in Partially Observable Markov
Decision Processes [36.07746952116073]
部分的に観測可能なマルコフ決定過程(POMDP)において線形時間論理式を満たすポリシーを合成する手法を提案する。
本稿では,所望の論理式を満たす最大確率を効率的に近似するために,ポイントベースの値反復法を提案する。
我々は,提案手法を大規模POMDPドメインに拡張し,その結果のポリシーの性能に強い拘束力を与えることを示した。
論文 参考訳(メタデータ) (2020-01-11T23:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。