論文の概要: Safe Reinforcement Learning with Stability & Safety Guarantees Using
Robust MPC
- arxiv url: http://arxiv.org/abs/2012.07369v1
- Date: Mon, 14 Dec 2020 09:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:13:48.975427
- Title: Safe Reinforcement Learning with Stability & Safety Guarantees Using
Robust MPC
- Title(参考訳): ロバストmpcを用いた安全・安全保証型安全強化学習
- Authors: S\'ebastien Gros, Mario Zanon
- Abstract要約: 強化学習は、ポリシーの対象となる実システムから得られたデータに基づいてポリシーを最適化するツールを提供する。
近年の出版物では、モデル予測制御技術と強化学習を併用して、これらの問題に対処するための実用的かつ理論的に正当化されたアプローチが提案されている。
本稿では,Reinforcement Learningツールの更新を通じて,安全性と安定性をどのように適用できるかを詳述する公式な理論を開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning offers tools to optimize policies based on the data
obtained from the real system subject to the policy. While the potential of
Reinforcement Learning is well understood, many critical aspects still need to
be tackled. One crucial aspect is the issue of safety and stability. Recent
publications suggest the use of Nonlinear Model Predictive Control techniques
in combination with Reinforcement Learning as a viable and theoretically
justified approach to tackle these problems. In particular, it has been
suggested that robust MPC allows for making formal stability and safety claims
in the context of Reinforcement Learning. However, a formal theory detailing
how safety and stability can be enforced through the parameter updates
delivered by the Reinforcement Learning tools is still lacking. This paper
addresses this gap. The theory is developed for the generic robust MPC case,
and further detailed in the robust tube-based linear MPC case, where the theory
is fairly easy to deploy in practice.
- Abstract(参考訳): 強化学習は、実際のシステムから得られたデータに基づいてポリシーを最適化するツールを提供する。
強化学習の可能性はよく理解されているが、それでも多くの重要な側面に取り組む必要がある。
重要な側面の1つは、安全性と安定性の問題である。
近年の論文では、非線形モデル予測制御手法と強化学習を組み合わせることで、これらの問題に対処するための有効な理論的正当化手法として用いることを示唆している。
特に強固なmpcは強化学習の文脈で形式的な安定性と安全性の主張を可能にすることが示唆されている。
しかしながら、強化学習ツールによって提供されるパラメータ更新を通じて、安全性と安定性をどのように実施できるかを詳述した正式な理論はまだ欠けている。
この論文はこのギャップに対処する。
この理論は、一般的なロバスト mpc の場合のために開発され、ロバストな管ベースの線形 mpc の場合でさらに詳細に述べられている。
関連論文リスト
- Hierarchical Framework for Interpretable and Probabilistic Model-Based
Safe Reinforcement Learning [1.3678669691302048]
本稿では,安全クリティカルシステムにおける深層強化学習の新たなアプローチを提案する。
確率論的モデリングと強化学習の利点と、解釈可能性の利点を兼ね備えている。
論文 参考訳(メタデータ) (2023-10-28T20:30:57Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Safe Exploration in Model-based Reinforcement Learning using Control
Barrier Functions [1.005130974691351]
我々は、最小侵襲の安全管理ポリシーを開発するためにCBFの有益な特性を保持する新しいCBFのクラスを開発する。
我々は,これらのlcbfを学習ベースの制御ポリシーの強化に活用し,安全性を保証し,このアプローチを利用して安全な探索フレームワークを開発する方法を示す。
論文 参考訳(メタデータ) (2021-04-16T15:29:58Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z) - Neural Lyapunov Model Predictive Control: Learning Safe Global
Controllers from Sub-optimal Examples [4.777323087050061]
多くの実世界の産業アプリケーションでは、例えば人間の操作者による実行など、既存の制御戦略を持つことが典型的である。
この研究の目的は、安全と安定性を維持する新しいコントローラを学習することで、この未知の、安全だが、最適でないポリシーを改善することである。
提案アルゴリズムは、端末コストを学習し、安定性基準に従ってMPCパラメータを更新する。
論文 参考訳(メタデータ) (2020-02-21T16:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。