論文の概要: Conservative and Adaptive Penalty for Model-Based Safe Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2112.07701v1
- Date: Tue, 14 Dec 2021 19:09:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 16:20:57.284317
- Title: Conservative and Adaptive Penalty for Model-Based Safe Reinforcement
Learning
- Title(参考訳): モデルベース安全強化学習のための保守的・適応的ペナルティ
- Authors: Yecheng Jason Ma, Andrew Shen, Osbert Bastani, Dinesh Jayaraman
- Abstract要約: 実世界の強化学習(RL)エージェントは、報酬目標の最大化に加えて、安全上の制約を満たす必要がある。
モデルベースのRLアルゴリズムは、安全でない現実世界のアクションを減らすことを約束する。
モデルベース安全なRLフレームワークであるCAP(Reserve and Adaptive Penalty)を提案する。
- 参考スコア(独自算出の注目度): 31.097091898555725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) agents in the real world must satisfy safety
constraints in addition to maximizing a reward objective. Model-based RL
algorithms hold promise for reducing unsafe real-world actions: they may
synthesize policies that obey all constraints using simulated samples from a
learned model. However, imperfect models can result in real-world constraint
violations even for actions that are predicted to satisfy all constraints. We
propose Conservative and Adaptive Penalty (CAP), a model-based safe RL
framework that accounts for potential modeling errors by capturing model
uncertainty and adaptively exploiting it to balance the reward and the cost
objectives. First, CAP inflates predicted costs using an uncertainty-based
penalty. Theoretically, we show that policies that satisfy this conservative
cost constraint are guaranteed to also be feasible in the true environment. We
further show that this guarantees the safety of all intermediate solutions
during RL training. Further, CAP adaptively tunes this penalty during training
using true cost feedback from the environment. We evaluate this conservative
and adaptive penalty-based approach for model-based safe RL extensively on
state and image-based environments. Our results demonstrate substantial gains
in sample-efficiency while incurring fewer violations than prior safe RL
algorithms. Code is available at: https://github.com/Redrew/CAP
- Abstract(参考訳): 実世界の強化学習(RL)エージェントは、報酬目標の最大化に加えて、安全上の制約を満たす必要がある。
モデルベースのRLアルゴリズムは、安全でない現実世界のアクションを減らすことを約束する:学習モデルからシミュレーションされたサンプルを使用して、すべての制約に従うポリシーを合成する。
しかしながら、不完全なモデルは、全ての制約を満たすと予測されるアクションに対してさえ、現実世界の制約違反をもたらす可能性がある。
本稿では,モデル不確実性を捕捉し,報酬とコスト目標のバランスをとるために適応的に利用するモデルベース安全なRLフレームワークである,保守的かつ適応的な罰則(CAP)を提案する。
まずcapは不確実性に基づくペナルティを用いて予測コストを膨らませる。
理論的には、この保守的なコスト制約を満たす政策は、真の環境でも実現可能であることが保証されている。
さらに、RLトレーニング中の全ての中間解の安全性が保証されることを示す。
さらにCAPは、環境からの真のコストフィードバックを使用して、トレーニング中にこのペナルティを適応的に調整する。
我々は,モデルベースのsafe rlに対する保存的かつ適応的なペナルティに基づくアプローチを,状態および画像ベースの環境に広く評価する。
その結果,従来の安全なrlアルゴリズムよりも少ない違反を伴いながら,サンプル効率が大幅に向上した。
コードは、https://github.com/Redrew/CAPで入手できる。
関連論文リスト
- Constrained Reinforcement Learning Under Model Mismatch [18.05296241839688]
制約強化学習(RL)に関する既存の研究は、訓練環境における優れた政策を得ることができる。
しかし、実際の環境にデプロイすると、トレーニングと実際の環境の間にモデルミスマッチがあるため、トレーニング中に当初満足していた制約に容易に違反する可能性がある。
我々は,大規模かつ連続的な状態空間に適用可能な最初のアルゴリズムであるロバスト制約付きポリシー最適化(RCPO)アルゴリズムを開発し,トレーニング中の各イテレーションにおいて最悪の報酬改善と制約違反を理論的に保証する。
論文 参考訳(メタデータ) (2024-05-02T14:31:52Z) - ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints [34.9739641898452]
本研究では、最適値とポリシーのニューラルネットワーク近似を学習することにより、信念空間におけるCC-POMDPを解くConstrainedZeroポリシーアルゴリズムを導入する。
その結果, 目標から安全制約を分離することで, 報酬とコストのバランスを最適化することなく, 目標となる安全レベルを達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-01T17:17:22Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning [64.33956692265419]
オフラインセーフなRLは、現実世界のアプリケーションにエージェントをデプロイする上で、非常に実用的な関連性を持っています。
そこで我々は,SaFormerと呼ばれる新しいオフラインセーフなRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-28T13:57:01Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z) - Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning [7.138691584246846]
本稿では,安全指向エネルギー関数を用いてポリシー更新を限定するセーフセットアクタクリティカル(SSAC)アルゴリズムを提案する。
安全指数は、潜在的に危険な行動のために急速に増加するように設計されている。
我々は、値関数の学習と同様に、モデルのない方法でエネルギー関数を学習できると主張する。
論文 参考訳(メタデータ) (2021-11-25T07:24:30Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。