論文の概要: Safe Model-Based Reinforcement Learning Using Robust Control Barrier
Functions
- arxiv url: http://arxiv.org/abs/2110.05415v1
- Date: Mon, 11 Oct 2021 17:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 17:13:56.942424
- Title: Safe Model-Based Reinforcement Learning Using Robust Control Barrier
Functions
- Title(参考訳): ロバスト制御バリア関数を用いた安全モデルに基づく強化学習
- Authors: Yousef Emam, Paul Glotfelter, Zsolt Kira and Magnus Egerstedt
- Abstract要約: 安全に対処する一般的なアプローチとして、安全層が追加され、RLアクションを安全な一連のアクションに投影する。
本稿では,モデルベースRLフレームワークにおけるロバスト制御バリア機能層としての安全性について述べる。
- 参考スコア(独自算出の注目度): 43.713259595810854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is effective in many scenarios. However, it
typically requires the exploration of a sufficiently large number of
state-action pairs, some of which may be unsafe. Consequently, its application
to safety-critical systems remains a challenge. Towards this end, an
increasingly common approach to address safety involves the addition of a
safety layer that projects the RL actions onto a safe set of actions. In turn,
a challenge for such frameworks is how to effectively couple RL with the safety
layer to improve the learning performance. In the context of leveraging control
barrier functions for safe RL training, prior work focuses on a restricted
class of barrier functions and utilizes an auxiliary neural net to account for
the effects of the safety layer which inherently results in an approximation.
In this paper, we frame safety as a differentiable
robust-control-barrier-function layer in a model-based RL framework. As such,
this approach both ensures safety and effectively guides exploration during
training resulting in increased sample efficiency as demonstrated in the
experiments.
- Abstract(参考訳): 強化学習(RL)は多くのシナリオで有効である。
しかし、通常は十分な数の状態-アクションペアの探索が必要であり、その一部は安全でない可能性がある。
そのため、安全クリティカルシステムへの応用は依然として課題である。
この目的に向けて、安全に対処する一般的なアプローチとして、安全なアクションセットにRLアクションを投影するセーフティレイヤの追加がある。
このようなフレームワークの課題は、RLを安全層と効果的に結合して学習性能を改善する方法にある。
安全なRLトレーニングに制御バリア関数を活用するという文脈において、先行研究は制限されたバリア関数のクラスに焦点を当て、本質的に近似をもたらす安全層の効果を考慮に入れた補助ニューラルネットワークを利用する。
本稿では,モデルベースRLフレームワークにおけるロバスト制御バリア機能層としての安全性について述べる。
このように、このアプローチは安全性を確保し、トレーニング中の探索を効果的にガイドし、その結果、実験で示されたサンプル効率が向上する。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Reinforcement Learning in a Safety-Embedded MDP with Trajectory Optimization [42.258173057389]
この研究は、このトレードオフを効果的に管理するために、RLと軌道最適化を組み合わせた新しいアプローチを導入する。
我々のアプローチは、修正マルコフ決定プロセス(MDP)の動作空間に安全制約を埋め込む。
この新しいアプローチは、セーフティ・ジムの課題に挑戦するパフォーマンスに優れており、推論中にはるかに高い報酬とほぼゼロに近い安全違反を達成している。
論文 参考訳(メタデータ) (2023-10-10T18:01:16Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe and Efficient Reinforcement Learning Using
Disturbance-Observer-Based Control Barrier Functions [5.571154223075409]
本稿では、外乱オブザーバ(DOB)と制御バリア機能(CBF)を用いた安全かつ効率的な強化学習(RL)手法を提案する。
本手法はモデル学習を伴わず,DOBを用いて不確実性のポイントワイド値を正確に推定し,安全行動を生成するための頑健なCBF条件に組み込む。
提案手法は,CBFとガウス過程に基づくモデル学習を用いて,最先端の安全なRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-11-30T18:49:53Z) - Provably Safe Reinforcement Learning: Conceptual Analysis, Survey, and
Benchmarking [12.719948223824483]
強化学習(RL)アルゴリズムは、多くの現実世界のタスクにおいて、その潜在能力を解き放つために不可欠である。
しかしながら、バニラRLと最も安全なRLアプローチは安全性を保証するものではない。
本稿では,既存の安全なRL手法の分類を導入し,連続的および離散的な動作空間の概念的基礎を提示し,既存の手法を実証的にベンチマークする。
本稿では、安全仕様、RLアルゴリズム、アクション空間の種類に応じて、確実に安全なRLアプローチを選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2022-05-13T16:34:36Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。