論文の概要: Safe Exploration by Solving Early Terminated MDP
- arxiv url: http://arxiv.org/abs/2107.04200v1
- Date: Fri, 9 Jul 2021 04:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:43:57.651087
- Title: Safe Exploration by Solving Early Terminated MDP
- Title(参考訳): 早期終末期MDPの解決による安全な探索
- Authors: Hao Sun, Ziping Xu, Meng Fang, Zhenghao Peng, Jiadong Guo, Bo Dai,
Bolei Zhou
- Abstract要約: 我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
- 参考スコア(独自算出の注目度): 77.10563395197045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe exploration is crucial for the real-world application of reinforcement
learning (RL). Previous works consider the safe exploration problem as
Constrained Markov Decision Process (CMDP), where the policies are being
optimized under constraints. However, when encountering any potential dangers,
human tends to stop immediately and rarely learns to behave safely in danger.
Motivated by human learning, we introduce a new approach to address safe RL
problems under the framework of Early Terminated MDP (ET-MDP). We first define
the ET-MDP as an unconstrained MDP with the same optimal value function as its
corresponding CMDP. An off-policy algorithm based on context models is then
proposed to solve the ET-MDP, which thereby solves the corresponding CMDP with
better asymptotic performance and improved learning efficiency. Experiments on
various CMDP tasks show a substantial improvement over previous methods that
directly solve CMDP.
- Abstract(参考訳): 強化学習(RL)の現実的な応用には,安全な探索が不可欠である。
従来の研究では、安全な探索問題を制約付きマルコフ決定プロセス(CMDP)とみなしており、政策は制約の下で最適化されている。
しかし、潜在的な危険に遭遇すると、人間はすぐに立ち止まり、危険の中で安全に行動することを学ぶことは滅多にない。
人間の学習を動機として,早期終末型MDP(ET-MDP)の枠組みの下で安全なRL問題に対処する新たなアプローチを導入する。
まず,ET-MDP を,対応するCMDP と同じ最適値関数を持つ制約のない MDP として定義する。
そこで, 文脈モデルに基づく非政治アルゴリズムを提案し, ET-MDPを解くことにより, CMDPの漸近性能を向上し, 学習効率を向上する。
CMDPタスクの実験では、CMDPを直接解く従来の方法よりも大幅に改善されている。
関連論文リスト
- Solving Multi-Model MDPs by Coordinate Ascent and Dynamic Programming [8.495921422521068]
マルチモデルマルコフ決定プロセス(MMDP)は、コンピューティングポリシーのための有望なフレームワークである。
MMDP は,MDP モデルの分布よりも期待されるリターンを最大化する政策を見出すことを目的としている。
本稿では,コーディネート・アセント法と,MMDPを解く動的プログラミングアルゴリズムを組み合わせたCADPを提案する。
論文 参考訳(メタデータ) (2024-07-08T18:47:59Z) - Robust Average-Reward Markov Decision Processes [25.125481838479256]
我々は,不確実なセットに対して最悪の平均報酬を最適化する政策を見出すことを目標とする,堅牢な平均リワードMDPに焦点を当てる。
我々は, ディスカウント型MDPを用いて, 平均回帰MDPを近似するアプローチを採っている。
我々は、ロバスト平均逆 MDP に対するロバストなベルマン方程式を導出し、最適ポリシーがその解から導出できることを証明し、さらに、その解を確実に見つけ出すロバストな相対値アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-02T19:51:55Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。