論文の概要: Sample-efficient Safe Learning for Online Nonlinear Control with Control
Barrier Functions
- arxiv url: http://arxiv.org/abs/2207.14419v1
- Date: Fri, 29 Jul 2022 00:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 13:31:12.744326
- Title: Sample-efficient Safe Learning for Online Nonlinear Control with Control
Barrier Functions
- Title(参考訳): 制御バリア機能を有するオンライン非線形制御のためのサンプル効率安全な学習
- Authors: Wenhao Luo, Wen Sun and Ashish Kapoor
- Abstract要約: 強化学習と連続非線形制御は、複雑なシーケンシャルな意思決定タスクの複数の領域にうまく展開されている。
学習過程の探索特性とモデル不確実性の存在を考えると、それらを安全クリティカルな制御タスクに適用することは困難である。
本稿では,オンライン制御タスクを対象とした,効率のよいエピソード型安全な学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.9713619595494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) and continuous nonlinear control have been
successfully deployed in multiple domains of complicated sequential
decision-making tasks. However, given the exploration nature of the learning
process and the presence of model uncertainty, it is challenging to apply them
to safety-critical control tasks due to the lack of safety guarantee. On the
other hand, while combining control-theoretical approaches with learning
algorithms has shown promise in safe RL applications, the sample efficiency of
safe data collection process for control is not well addressed. In this paper,
we propose a \emph{provably} sample efficient episodic safe learning framework
for online control tasks that leverages safe exploration and exploitation in an
unknown, nonlinear dynamical system. In particular, the framework 1) extends
control barrier functions (CBFs) in a stochastic setting to achieve provable
high-probability safety under uncertainty during model learning and 2)
integrates an optimism-based exploration strategy to efficiently guide the safe
exploration process with learned dynamics for \emph{near optimal} control
performance. We provide formal analysis on the episodic regret bound against
the optimal controller and probabilistic safety with theoretical guarantees.
Simulation results are provided to demonstrate the effectiveness and efficiency
of the proposed algorithm.
- Abstract(参考訳): 強化学習(RL)と連続非線形制御は、複雑な逐次決定タスクの複数の領域にうまく展開されている。
しかし, 学習過程の探索性やモデル不確かさから, 安全性保証の欠如から, 安全クリティカルな制御課題に適用することが困難である。
一方、制御理論と学習アルゴリズムの組み合わせは、安全なRLアプリケーションにおいて有望であるが、制御のための安全なデータ収集プロセスのサンプル効率は十分ではない。
本稿では,未知の非線形力学系における安全な探索と活用を生かしたオンライン制御タスクのための,効率的なエピソジック・セーフ・ラーニング・フレームワークであるemph{provably}を提案する。
特にその枠組み
1)制御障壁関数(CBF)を確率的に拡張し、モデル学習中の不確実性の下で高確率安全性を実現する。
2) 最適化に基づく探索戦略を統合し, 安全な探索プロセスと学習力学を併用することにより, 最適制御性能を向上する。
最適制御器に拘束されたエピソディック後悔と理論的保証を伴う確率的安全性に関する形式的分析を提供する。
提案アルゴリズムの有効性と有効性を示すシミュレーション結果を提供する。
関連論文リスト
- Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z) - Neural Lyapunov Redesign [36.2939747271983]
学習コントローラは、エージェントや環境に害を与えないように、何らかの安全の概念を保証しなければなりません。
リアプノフ関数は非線形力学系の安定性を評価する効果的なツールである。
本稿では,リアプノフ関数の推定と,安定領域を徐々に拡大する制御器の導出を交互に行う2プレーヤ協調アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-06T19:22:20Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。