論文の概要: Safe Continuous Control with Constrained Model-Based Policy Optimization
- arxiv url: http://arxiv.org/abs/2104.06922v1
- Date: Wed, 14 Apr 2021 15:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:04:51.590841
- Title: Safe Continuous Control with Constrained Model-Based Policy Optimization
- Title(参考訳): 制約付きモデルに基づく政策最適化による安全連続制御
- Authors: Moritz A. Zanger, Karam Daaboul, J. Marius Z\"ollner
- Abstract要約: 制約付き高次元制御のためのモデルベースセーフ探索アルゴリズムを提案する。
また、モデル生成データによるポリシー探索を高速化する実用的なアルゴリズムも導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The applicability of reinforcement learning (RL) algorithms in real-world
domains often requires adherence to safety constraints, a need difficult to
address given the asymptotic nature of the classic RL optimization objective.
In contrast to the traditional RL objective, safe exploration considers the
maximization of expected returns under safety constraints expressed in expected
cost returns. We introduce a model-based safe exploration algorithm for
constrained high-dimensional control to address the often prohibitively high
sample complexity of model-free safe exploration algorithms. Further, we
provide theoretical and empirical analyses regarding the implications of
model-usage on constrained policy optimization problems and introduce a
practical algorithm that accelerates policy search with model-generated data.
The need for accurate estimates of a policy's constraint satisfaction is in
conflict with accumulating model-errors. We address this issue by quantifying
model-uncertainty as the expected Kullback-Leibler divergence between
predictions of an ensemble of probabilistic dynamics models and constrain this
error-measure, resulting in an adaptive resampling scheme and dynamically
limited rollout horizons. We evaluate this approach on several simulated
constrained robot locomotion tasks with high-dimensional action- and
state-spaces. Our empirical studies find that our algorithm reaches model-free
performances with a 10-20 fold reduction of training samples while maintaining
approximate constraint satisfaction levels of model-free methods.
- Abstract(参考訳): 実世界の領域における強化学習(RL)アルゴリズムの適用性は、古典的なRL最適化目標の漸近的な性質を考慮すると、しばしば、安全制約の遵守を必要とする。
従来のrlの目標とは対照的に、safe explorationは、期待コストのリターンで表現される安全制約の下での期待リターンの最大化を検討する。
本稿では,モデルフリーな安全探索アルゴリズムのしばしば禁止される高いサンプル複雑性に対処するために,制約付き高次元制御のためのモデルベースセーフ探索アルゴリズムを提案する。
さらに,制約付きポリシー最適化問題に対するモデル利用の影響に関する理論的・実証的分析を行い,モデル生成データを用いたポリシー探索を高速化する実用的なアルゴリズムを提案する。
ポリシーの制約満足度を正確に見積もる必要性は、モデルエラーの蓄積と矛盾する。
モデル不確かさを、確率力学モデルのアンサンブルの予測と、この誤差対策の制約の間に期待されるクルバック・リーブラーの偏差として定量化し、適応的な再サンプリング方式と動的に限定されたロールアウト地平線をもたらす。
本手法は,高次元動作空間と状態空間を持つ複数のロボット移動課題に対して評価する。
実験により,本アルゴリズムはモデルフリー手法の近似的制約満足度を維持しつつ,トレーニングサンプルの10~20倍の縮小でモデルフリー性能に達することがわかった。
関連論文リスト
- Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Model-based Safe Reinforcement Learning using Generalized Control
Barrier Function [6.556257209888797]
本稿では,制約付きRLのモデルに基づく実現性向上手法を提案する。
モデル情報を使用することで、実際の安全制約に違反することなく、ポリシーを安全に最適化することができる。
提案手法は最大4倍の制約違反を達成し、ベースライン制約RLアプローチよりも3.36倍の速度で収束する。
論文 参考訳(メタデータ) (2021-03-02T08:17:38Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Constrained Model-based Reinforcement Learning with Robust Cross-Entropy
Method [30.407700996710023]
本稿では,制約違反に対するスパースインジケータ信号を用いた制約/安全強化学習問題について検討する。
本稿では,ニューラルネットワークアンサンブルモデルを用いて予測の不確実性を推定し,モデル予測制御を基本制御フレームワークとして利用する。
その結果,本手法は現状のベースラインよりもはるかに少ない制約違反数でタスクを完了させることが判明した。
論文 参考訳(メタデータ) (2020-10-15T18:19:35Z) - Learning with Safety Constraints: Sample Complexity of Reinforcement
Learning for Constrained MDPs [13.922754427601491]
我々は,安全性の制約と,所望の精度を確保するために必要なサンプル数との関係を特徴付ける。
我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約されたRLアルゴリズムのサンプルは制約の数に対数的な因子によって増加することである。
論文 参考訳(メタデータ) (2020-08-01T18:17:08Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。