論文の概要: Constrained Markov Decision Processes via Backward Value Functions
- arxiv url: http://arxiv.org/abs/2008.11811v1
- Date: Wed, 26 Aug 2020 20:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 21:19:28.771997
- Title: Constrained Markov Decision Processes via Backward Value Functions
- Title(参考訳): 後方値関数によるマルコフ決定過程の制約
- Authors: Harsh Satija, Philip Amortila, Joelle Pineau
- Abstract要約: 制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
- 参考スコア(独自算出の注目度): 43.649330976089004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Reinforcement Learning (RL) algorithms have found tremendous success
in simulated domains, they often cannot directly be applied to physical
systems, especially in cases where there are hard constraints to satisfy (e.g.
on safety or resources). In standard RL, the agent is incentivized to explore
any behavior as long as it maximizes rewards, but in the real world, undesired
behavior can damage either the system or the agent in a way that breaks the
learning process itself. In this work, we model the problem of learning with
constraints as a Constrained Markov Decision Process and provide a new
on-policy formulation for solving it. A key contribution of our approach is to
translate cumulative cost constraints into state-based constraints. Through
this, we define a safe policy improvement method which maximizes returns while
ensuring that the constraints are satisfied at every step. We provide
theoretical guarantees under which the agent converges while ensuring safety
over the course of training. We also highlight the computational advantages of
this approach. The effectiveness of our approach is demonstrated on safe
navigation tasks and in safety-constrained versions of MuJoCo environments,
with deep neural networks.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)アルゴリズムは、シミュレーションされた領域において非常に成功したが、特に満たすべき厳しい制約(安全性やリソースなど)がある場合において、物理システムに直接適用できないことが多い。
標準的なRLでは、エージェントは報酬を最大化できる限りあらゆる行動を探求するインセンティブを与えるが、現実の世界では、望ましくない振る舞いは学習プロセスそのものを破壊する方法でシステムまたはエージェントにダメージを与える。
本研究は,制約付きマルコフ決定プロセスとして制約付き学習問題をモデル化し,それを解決するための新しいオン・ポリシーな定式化を提供する。
このアプローチの重要な貢献は累積コスト制約を状態ベースの制約に変換することです。
これを通じて、各ステップで制約が満たされることを確保しつつ、リターンを最大化する安全なポリシー改善手法を定義する。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
このアプローチの計算上の利点も強調する。
本手法の有効性は,深層ニューラルネットワークを用いた安全ナビゲーションタスクおよび安全制約型mujoco環境において実証された。
関連論文リスト
- Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Handling Long and Richly Constrained Tasks through Constrained
Hierarchical Reinforcement Learning [20.280636126917614]
目標の安全性 強化学習(RL)の設定は通常、軌道上の制約によって処理される。
本稿では,上位レベルの制約付き検索エージェントと下位レベルの目標条件付きRLエージェントを組み合わせた(安全)階層型強化学習(CoSHRL)機構を提案する。
CoSHRLの大きな利点は、コスト値分布の制約を処理でき、再トレーニングなしに柔軟な制約しきい値に調整できることである。
論文 参考訳(メタデータ) (2023-02-21T12:57:12Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。