論文の概要: Safe Reinforcement Learning in Tensor Reproducing Kernel Hilbert Space
- arxiv url: http://arxiv.org/abs/2312.00727v1
- Date: Fri, 1 Dec 2023 17:01:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 13:46:39.532787
- Title: Safe Reinforcement Learning in Tensor Reproducing Kernel Hilbert Space
- Title(参考訳): テンソル再生核ヒルベルト空間における安全強化学習
- Authors: Xiaoyuan Cheng, Boli Chen, Liz Varga, Yukun Hu
- Abstract要約: 伝統的な部分的に観察可能なマルコフ決定プロセスでは、安全を確保するには、一般に潜伏状態の信念を推定する必要がある。
本稿では,RLの安全性を,未知のシステム力学の面においてほぼ確実に保証するモデルに基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 9.823296458696882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper delves into the problem of safe reinforcement learning (RL) in a
partially observable environment with the aim of achieving safe-reachability
objectives. In traditional partially observable Markov decision processes
(POMDP), ensuring safety typically involves estimating the belief in latent
states. However, accurately estimating an optimal Bayesian filter in POMDP to
infer latent states from observations in a continuous state space poses a
significant challenge, largely due to the intractable likelihood. To tackle
this issue, we propose a stochastic model-based approach that guarantees RL
safety almost surely in the face of unknown system dynamics and partial
observation environments. We leveraged the Predictive State Representation
(PSR) and Reproducing Kernel Hilbert Space (RKHS) to represent future
multi-step observations analytically, and the results in this context are
provable. Furthermore, we derived essential operators from the kernel Bayes'
rule, enabling the recursive estimation of future observations using various
operators. Under the assumption of \textit{undercompleness}, a polynomial
sample complexity is established for the RL algorithm for the infinite size of
observation and action spaces, ensuring an $\epsilon-$suboptimal safe policy
guarantee.
- Abstract(参考訳): 本稿では, 部分的に観測可能な環境下での安全強化学習(RL)の課題を, 安全な到達目標を達成するために検討する。
従来の部分観測可能なマルコフ決定プロセス(pomdp)では、安全性を確保するには一般的に潜在状態の信念を推定することが必要となる。
しかし、連続状態空間における観測から潜伏状態を予測するために、PMDPの最適ベイズフィルタを正確に推定することは、主に難解な可能性のために大きな課題となる。
本稿では,RLの安全性を,未知のシステム力学や部分観測環境にほぼ確実に保証する確率的モデルに基づくアプローチを提案する。
我々は、予測状態表現(PSR)と再現ケルネルヒルベルト空間(RKHS)を利用して、将来の多段階観測を解析的に表現し、この文脈における結果は証明可能である。
さらに、カーネルベイズ則から本質的作用素を導出し、様々な演算子を用いた将来の観測の再帰的推定を可能にする。
textit{undercompleness} の仮定の下で、観測空間と行動空間の無限の大きさのRLアルゴリズムに対して多項式サンプル複雑性が確立され、$\epsilon-$suboptimal safe policy guarantee が保証される。
関連論文リスト
- Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Probabilistic Constraint for Safety-Critical Reinforcement Learning [13.502008069967552]
確率的制約付き強化学習(RL)における安全な政策学習の課題について考察する。
SPG-Actor-Critic は SPG-REINFORCE よりも低い分散をもたらす。
両SPGを利用して安全なポリシを学習できるSafe Primal-Dualアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-29T19:41:56Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Safe Reinforcement Learning From Pixels Using a Stochastic Latent
Representation [3.5884936187733394]
我々は,画素観測による安全強化学習の課題に対処する。
制約付き、部分的に観測可能なマルコフ決定プロセスフレームワークで問題を定式化する。
我々は、潜伏アクター批判(SLAC)アプローチを用いて、新しい安全評論家を採用する。
論文 参考訳(メタデータ) (2022-10-02T19:55:42Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。
穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。
また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2022-02-01T17:46:51Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Exploring the Training Robustness of Distributional Reinforcement
Learning against Noisy State Observations [7.776010676090131]
エージェントが観察する状態の観察は、測定誤差や敵のノイズを含んでおり、エージェントが最適な行動を取るように誤解したり、訓練中に崩壊することもある。
本稿では,本研究の成果である分散強化学習(RL)のトレーニングロバスト性について検討する。
論文 参考訳(メタデータ) (2021-09-17T22:37:39Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Representation of Reinforcement Learning Policies in Reproducing Kernel
Hilbert Spaces [72.5149277196468]
このフレームワークは、カーネルヒルベルト空間(RKHS)上のポリシーの低次元埋め込みを見つけることを含む。
我々は、再建された政策の復活を期待して、強い理論的保証を得る。
その結果、低次元空間にロバストに埋め込むことができる一方で、組込みポリシはリターンの低下をほとんど起こさないことを確認した。
論文 参考訳(メタデータ) (2020-02-07T15:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。