論文の概要: Safe Policy Improvement for POMDPs via Finite-State Controllers
- arxiv url: http://arxiv.org/abs/2301.04939v1
- Date: Thu, 12 Jan 2023 11:22:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 13:52:34.827059
- Title: Safe Policy Improvement for POMDPs via Finite-State Controllers
- Title(参考訳): 有限状態制御によるpomdpの安全ポリシー改善
- Authors: Thiago D. Sim\~ao, Marnix Suilen, Nils Jansen
- Abstract要約: 部分的に観測可能なマルコフ決定プロセス(POMDP)のための安全政策改善(SPI)について検討する。
SPIメソッドは、モデルや環境自体へのアクセスを必要とせず、オフラインで動作ポリシーを確実に改善することを目指している。
我々は,この新方針が(未知の)POMDPの新しいFSCに変換され,行動方針を高い確率で上回ることを示す。
- 参考スコア(独自算出の注目度): 6.022036788651133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study safe policy improvement (SPI) for partially observable Markov
decision processes (POMDPs). SPI is an offline reinforcement learning (RL)
problem that assumes access to (1) historical data about an environment, and
(2) the so-called behavior policy that previously generated this data by
interacting with the environment. SPI methods neither require access to a model
nor the environment itself, and aim to reliably improve the behavior policy in
an offline manner. Existing methods make the strong assumption that the
environment is fully observable. In our novel approach to the SPI problem for
POMDPs, we assume that a finite-state controller (FSC) represents the behavior
policy and that finite memory is sufficient to derive optimal policies. This
assumption allows us to map the POMDP to a finite-state fully observable MDP,
the history MDP. We estimate this MDP by combining the historical data and the
memory of the FSC, and compute an improved policy using an off-the-shelf SPI
algorithm. The underlying SPI method constrains the policy-space according to
the available data, such that the newly computed policy only differs from the
behavior policy when sufficient data was available. We show that this new
policy, converted into a new FSC for the (unknown) POMDP, outperforms the
behavior policy with high probability. Experimental results on several
well-established benchmarks show the applicability of the approach, even in
cases where finite memory is not sufficient.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)に対する安全政策改善(SPI)について検討した。
spiは,(1)環境に関する履歴データへのアクセスを前提としたオフライン強化学習(rl)問題であり,(2)環境とのインタラクションによってこれまで生成された行動ポリシーである。
spiメソッドはモデルや環境自体へのアクセスを必要とせず、オフラインで動作ポリシーを確実に改善することを目指している。
既存の手法は環境が完全に観測可能であることを強く仮定する。
我々は,POMDPのSPI問題に対する新しいアプローチとして,有限状態制御器(FSC)が動作ポリシーを表現し,有限メモリが最適ポリシーを導出するのに十分であると考えている。
この仮定により、POMDP を有限状態完全可観測 MDP、履歴 MDP にマッピングできる。
歴史的データとFSCのメモリを組み合わせることで,このMDPを推定し,既製のSPIアルゴリズムを用いて改良されたポリシーを算出する。
基礎となるSPI法は、利用可能なデータに従ってポリシー空間を制約し、新たに計算されたポリシーは、十分なデータが利用可能であった場合にのみ行動ポリシーと異なる。
我々は,この新方針が(未知の)POMDPの新しいFSCに変換され,行動方針を高い確率で上回ることを示す。
いくつかのよく確立されたベンチマークの実験結果は、有限メモリが十分でない場合でも、アプローチの適用可能性を示している。
関連論文リスト
- Score-Aware Policy-Gradient Methods and Performance Guarantees using
Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks
and Queueing Systems [1.8749305679160366]
スコア・アウェア・グラデーションMD(SAGE)と呼ばれるMDPの勾配の新たなファミリーを導入する。
決定の定常分布が指数族に属する場合、SAGEは値-関数推定なしで政策勾配を推定できる。
適切な仮定の下では、適切なポリシーに十分近づき始めた場合に、ポリシー段階の手法が最適なポリシーに大きく収束していることが示される。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Robust Anytime Learning of Markov Decision Processes [8.799182983019557]
データ駆動型アプリケーションでは、限られたデータから正確な確率を導き出すと統計的エラーが発生する。
不確実なMDP(uMDP)は正確な確率を必要としないが、遷移においていわゆる不確実性集合を用いる。
本稿では,ベイズ的推論スキームとロバストポリシーの計算を組み合わせた,頑健な任意の時間学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T14:29:55Z) - BATS: Best Action Trajectory Stitching [22.75880303352508]
本稿では,データセットに新たな遷移を加えることで,ログデータ上に表形式のマルコフ決定プロセス(MDP)を形成するアルゴリズムを提案する。
この性質により、値関数の上限と下限を適切な距離の測度に設定できることを示す。
本稿では,提案アルゴリズムが生成したMDPの最適ポリシーを単純にクローンする動作が,この問題を回避する一例を示す。
論文 参考訳(メタデータ) (2022-04-26T01:48:32Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。