論文の概要: ChronosPerseus: Randomized Point-based Value Iteration with Importance
Sampling for POSMDPs
- arxiv url: http://arxiv.org/abs/2207.07825v1
- Date: Sat, 16 Jul 2022 03:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 15:05:14.371912
- Title: ChronosPerseus: Randomized Point-based Value Iteration with Importance
Sampling for POSMDPs
- Title(参考訳): ChronosPerseus: POSMDPの重要サンプリングによるランダム化ポイントベースの値イテレーション
- Authors: Richard Kohar, Fran\c{c}ois Rivest and Alain Gosselin
- Abstract要約: 強化学習では、エージェントはマルコフ決定プロセス(MDP)でモデル化された環境をうまく利用した。
多くの問題領域では、エージェントはその後の決定までうるさい観察やランダムな時間に悩まされることがある。
本稿では,部分観測可能な半マルコフ決定プロセス (POSMDP) が未知の時間的側面に対処するのに有効であることを示す。
- 参考スコア(独自算出の注目度): 2.3204178451683264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, agents have successfully used environments modeled
with Markov decision processes (MDPs). However, in many problem domains, an
agent may suffer from noisy observations or random times until its subsequent
decision. While partially observable Markov decision processes (POMDPs) have
dealt with noisy observations, they have yet to deal with the unknown time
aspect. Of course, one could discretize the time, but this leads to Bellman's
Curse of Dimensionality. To incorporate continuous sojourn-time distributions
in the agent's decision making, we propose that partially observable
semi-Markov decision processes (POSMDPs) can be helpful in this regard. We
extend \citet{Spaan2005a} randomized point-based value iteration (PBVI)
\textsc{Perseus} algorithm used for POMDP to POSMDP by incorporating continuous
sojourn time distributions and using importance sampling to reduce the solver
complexity. We call this new PBVI algorithm with importance sampling for
POSMDPs -- \textsc{ChronosPerseus}. This further allows for compressed complex
POMDPs requiring temporal state information by moving this information into
state sojourn time of a POMSDP. The second insight is that keeping a set of
sampled times and weighting it by its likelihood can be used in a single
backup; this helps further reduce the algorithm complexity. The solver also
works on episodic and non-episodic problems. We conclude our paper with two
examples, an episodic bus problem and a non-episodic maintenance problem.
- Abstract(参考訳): 強化学習では、エージェントはマルコフ決定プロセス(MDP)でモデル化された環境をうまく利用した。
しかし、多くの問題領域では、エージェントはその後の決定までうるさい観察やランダムな時間に悩まされることがある。
部分的に観測可能なマルコフ決定過程(POMDP)はノイズの観測に対処しているが、未知の時間的側面には対応していない。
もちろん、時間を見分けることはできるが、これはベルマンの次元の呪いに繋がる。
エージェントの意思決定に連続的な sojourn-time 分布を組み込むために, 半可観測半マルコフ決定過程 (posmdps) が有効であることを提案する。
我々は,POMDP に使用されるランダム化点ベース値反復 (PBVI) アルゴリズムを,連続的なソジュール時間分布を取り入れ,重要サンプリングを用いて拡張し,解の複雑性を低減する。
我々は、この新しいPBVIアルゴリズムを、POSMDPの重要サンプリング -- \textsc{ChronosPerseus} と呼ぶ。
さらに、この情報をPOMSDPのステート・ソジュール時間に移動させることで、時間状態情報を必要とする圧縮された複雑なPOMDPを可能にする。
2つめの洞察は、サンプリングされた時間のセットを保持して、その可能性によって重み付けすることで、単一のバックアップで使用できるということだ。
解法はまた、エピソジック問題や非エピソジック問題にも作用する。
本論文は,エピソジックバス問題と非エピソジック保守問題という2つの例で結論づける。
関連論文リスト
- Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Prospective Side Information for Latent MDPs [80.00842638151558]
本報告では,各エピソードの開始時に,エージェントが付加的,弱く露呈する情報を受信した場合に,予測側情報を用いたLMDPのクラスについて検討する。
驚くべきことに、この問題は、部分的に観察された環境のために設計された現代の設定やアルゴリズムによって捉えられていない。
すると、サンプル効率の良いアルゴリズムは、標準の$Omega(K2/3)$-regretとは対照的に、少なくとも$Omega(K2/3)$-regretを被ることを確立し、一致する上限を持つアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-10-11T15:37:31Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - Intermittently Observable Markov Decision Processes [26.118176084782842]
本稿では,制御者が信頼できない通信チャネルを通じてプロセスの状態情報を知覚するシナリオについて考察する。
地平線全体にわたる状態情報の伝達はベルヌーイ損失過程としてモデル化される。
木MDPに対する2つの有限状態近似を開発し,その近似を効率的に求める。
論文 参考訳(メタデータ) (2023-02-23T03:38:03Z) - Interval Markov Decision Processes with Continuous Action-Spaces [6.088695984060244]
連続動作型IMDP (caIMDP) を導入し, 遷移確率のバウンダリを動作変数の関数とする。
そこで我々は,caIMDP 上の値が効率的に解ける場合を同定するために,単純な最大問題の形式を利用する。
数値的な例でその結果を実演する。
論文 参考訳(メタデータ) (2022-11-02T16:11:51Z) - B$^3$RTDP: A Belief Branch and Bound Real-Time Dynamic Programming
Approach to Solving POMDPs [17.956744635160568]
我々は,Belief Branch and Bound RTDP (B$3$RTDP) と呼ぶRTDP-Belアルゴリズムの拡張を提案する。
我々のアルゴリズムは有界値関数表現を使い、これを2つの新しい方法で活用する。
B$3$RTDPは、既知のPOMDP問題に対する最先端のSARSOP解法よりも少ない時間で大きなリターンが得られることを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-22T21:42:59Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文 参考訳(メタデータ) (2021-07-01T03:54:36Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。