論文の概要: Safe Policy Improvement for POMDPs via Finite-State Controllers
- arxiv url: http://arxiv.org/abs/2301.04939v1
- Date: Thu, 12 Jan 2023 11:22:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 13:52:34.827059
- Title: Safe Policy Improvement for POMDPs via Finite-State Controllers
- Title(参考訳): 有限状態制御によるpomdpの安全ポリシー改善
- Authors: Thiago D. Sim\~ao, Marnix Suilen, Nils Jansen
- Abstract要約: 部分的に観測可能なマルコフ決定プロセス(POMDP)のための安全政策改善(SPI)について検討する。
SPIメソッドは、モデルや環境自体へのアクセスを必要とせず、オフラインで動作ポリシーを確実に改善することを目指している。
我々は,この新方針が(未知の)POMDPの新しいFSCに変換され,行動方針を高い確率で上回ることを示す。
- 参考スコア(独自算出の注目度): 6.022036788651133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study safe policy improvement (SPI) for partially observable Markov
decision processes (POMDPs). SPI is an offline reinforcement learning (RL)
problem that assumes access to (1) historical data about an environment, and
(2) the so-called behavior policy that previously generated this data by
interacting with the environment. SPI methods neither require access to a model
nor the environment itself, and aim to reliably improve the behavior policy in
an offline manner. Existing methods make the strong assumption that the
environment is fully observable. In our novel approach to the SPI problem for
POMDPs, we assume that a finite-state controller (FSC) represents the behavior
policy and that finite memory is sufficient to derive optimal policies. This
assumption allows us to map the POMDP to a finite-state fully observable MDP,
the history MDP. We estimate this MDP by combining the historical data and the
memory of the FSC, and compute an improved policy using an off-the-shelf SPI
algorithm. The underlying SPI method constrains the policy-space according to
the available data, such that the newly computed policy only differs from the
behavior policy when sufficient data was available. We show that this new
policy, converted into a new FSC for the (unknown) POMDP, outperforms the
behavior policy with high probability. Experimental results on several
well-established benchmarks show the applicability of the approach, even in
cases where finite memory is not sufficient.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)に対する安全政策改善(SPI)について検討した。
spiは,(1)環境に関する履歴データへのアクセスを前提としたオフライン強化学習(rl)問題であり,(2)環境とのインタラクションによってこれまで生成された行動ポリシーである。
spiメソッドはモデルや環境自体へのアクセスを必要とせず、オフラインで動作ポリシーを確実に改善することを目指している。
既存の手法は環境が完全に観測可能であることを強く仮定する。
我々は,POMDPのSPI問題に対する新しいアプローチとして,有限状態制御器(FSC)が動作ポリシーを表現し,有限メモリが最適ポリシーを導出するのに十分であると考えている。
この仮定により、POMDP を有限状態完全可観測 MDP、履歴 MDP にマッピングできる。
歴史的データとFSCのメモリを組み合わせることで,このMDPを推定し,既製のSPIアルゴリズムを用いて改良されたポリシーを算出する。
基礎となるSPI法は、利用可能なデータに従ってポリシー空間を制約し、新たに計算されたポリシーは、十分なデータが利用可能であった場合にのみ行動ポリシーと異なる。
我々は,この新方針が(未知の)POMDPの新しいFSCに変換され,行動方針を高い確率で上回ることを示す。
いくつかのよく確立されたベンチマークの実験結果は、有限メモリが十分でない場合でも、アプローチの適用可能性を示している。
関連論文リスト
- Decision-Point Guided Safe Policy Improvement [22.885394395400592]
決定点RL(Decision Points RL、DPRL)は、改善のために考慮される状態-作用対(または連続状態の領域)のセットを制限するアルゴリズムである。
DPRLは、密接な訪問国からのデータを活用しながら、密接な訪問国における高信頼の向上を保証する。
論文 参考訳(メタデータ) (2024-10-12T04:05:56Z) - Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Robust Anytime Learning of Markov Decision Processes [8.799182983019557]
データ駆動型アプリケーションでは、限られたデータから正確な確率を導き出すと統計的エラーが発生する。
不確実なMDP(uMDP)は正確な確率を必要としないが、遷移においていわゆる不確実性集合を用いる。
本稿では,ベイズ的推論スキームとロバストポリシーの計算を組み合わせた,頑健な任意の時間学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T14:29:55Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - BATS: Best Action Trajectory Stitching [22.75880303352508]
本稿では,データセットに新たな遷移を加えることで,ログデータ上に表形式のマルコフ決定プロセス(MDP)を形成するアルゴリズムを提案する。
この性質により、値関数の上限と下限を適切な距離の測度に設定できることを示す。
本稿では,提案アルゴリズムが生成したMDPの最適ポリシーを単純にクローンする動作が,この問題を回避する一例を示す。
論文 参考訳(メタデータ) (2022-04-26T01:48:32Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。