論文の概要: Bridging Model-based Safety and Model-free Reinforcement Learning
through System Identification of Low Dimensional Linear Models
- arxiv url: http://arxiv.org/abs/2205.05787v1
- Date: Wed, 11 May 2022 22:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:01:55.367986
- Title: Bridging Model-based Safety and Model-free Reinforcement Learning
through System Identification of Low Dimensional Linear Models
- Title(参考訳): 低次元線形モデルのシステム同定によるブリッジングモデルの安全性とモデルフリー強化学習
- Authors: Zhongyu Li, Jun Zeng, Akshay Thirugnanam, Koushil Sreenath
- Abstract要約: モデルベース安全性とモデルフリー強化学習を組み合わせた新しい手法を提案する。
閉ループ系の力学を捉えるためには,低次元の力学モデルが十分であることを示す。
検出された線形モデルは、安全クリティカルな最適制御フレームワークによる保証を提供することができることを示す。
- 参考スコア(独自算出の注目度): 16.511440197186918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bridging model-based safety and model-free reinforcement learning (RL) for
dynamic robots is appealing since model-based methods are able to provide
formal safety guarantees, while RL-based methods are able to exploit the robot
agility by learning from the full-order system dynamics. However, current
approaches to tackle this problem are mostly restricted to simple systems. In
this paper, we propose a new method to combine model-based safety with
model-free reinforcement learning by explicitly finding a low-dimensional model
of the system controlled by a RL policy and applying stability and safety
guarantees on that simple model. We use a complex bipedal robot Cassie, which
is a high dimensional nonlinear system with hybrid dynamics and underactuation,
and its RL-based walking controller as an example. We show that a
low-dimensional dynamical model is sufficient to capture the dynamics of the
closed-loop system. We demonstrate that this model is linear, asymptotically
stable, and is decoupled across control input in all dimensions. We further
exemplify that such linearity exists even when using different RL control
policies. Such results point out an interesting direction to understand the
relationship between RL and optimal control: whether RL tends to linearize the
nonlinear system during training in some cases. Furthermore, we illustrate that
the found linear model is able to provide guarantees by safety-critical optimal
control framework, e.g., Model Predictive Control with Control Barrier
Functions, on an example of autonomous navigation using Cassie while taking
advantage of the agility provided by the RL-based controller.
- Abstract(参考訳): 動的ロボットのモデルベース安全性とモデルフリー強化学習(RL)は、モデルベース手法が正式な安全保証を提供することができるのに対して、RLベースの手法は、フルオーダーシステムダイナミクスから学習することでロボットの俊敏性を活用することができるため、魅力的である。
しかし、この問題に対処する現在のアプローチは主に単純なシステムに限られている。
本稿では、RLポリシーで制御されるシステムの低次元モデルを明確に見つけ、そのモデルに安定性と安全性の保証を適用することにより、モデルベース安全性とモデルフリー強化学習を組み合わせる新しい手法を提案する。
複合型二足歩行ロボットcassieを例として,ハイブリッドダイナミクスとアンダーアクチュレーションを備えた高次元非線形システムと,そのrlベースの歩行制御器を用いた。
低次元力学モデルは閉ループ系の力学を捉えるのに十分であることを示す。
このモデルが線形であり,漸近安定であり,すべての次元の制御入力にまたがって分離されることを示す。
さらに、異なるRL制御ポリシーを用いても、そのような線形性が存在することを実証する。
このような結果は、rlと最適制御の関係を理解するための興味深い方向を示している: rlが訓練中に非線形システムを線形化する傾向があるかどうか。
さらに,本手法では,制御バリア機能を有するモデル予測制御など,安全クリティカルな最適制御フレームワークによる保証をcassieを用いた自律ナビゲーションの例として実現し,rlベースの制御による機敏さを活用できることを示す。
関連論文リスト
- Learning Exactly Linearizable Deep Dynamics Models [0.07366405857677226]
本稿では, 安定度, 信頼性, 信頼性を確保するために, 様々な制御理論を容易に適用可能な, 線形化可能な動的モデルの学習法を提案する。
提案手法は, 自動車エンジンのリアルタイム制御に応用され, 予測性能と制約下での安定制御が良好であることを示す。
論文 参考訳(メタデータ) (2023-11-30T05:40:55Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model
Predictive Control [49.60520501097199]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Model-Based Reinforcement Learning with SINDy [0.0]
強化学習(RL)における物理系の非線形力学を規定する新しい手法を提案する。
本手法は,技術モデル学習アルゴリズムの状態よりもはるかに少ないトラジェクトリを用いて,基礎となるダイナミクスを発見することができることを確認した。
論文 参考訳(メタデータ) (2022-08-30T19:03:48Z) - Recursively Feasible Probabilistic Safe Online Learning with Control
Barrier Functions [63.18590014127461]
本稿では,CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
本研究では,ロバストな安全クリティカルコントローラの実現可能性について検討する。
次に、これらの条件を使って、イベントトリガーによるオンラインデータ収集戦略を考案します。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Bridging the Model-Reality Gap with Lipschitz Network Adaptation [22.499090318313662]
ロボットが現実世界に進出するにつれ、ロボットは非モデル化された力学と乱れにさらされる。
従来のモデルベースの制御アプローチは、比較的静的で既知の運用環境で成功している。
本稿では,モデルと現実のギャップを埋め,動的不確実性が存在する場合でもモデルに基づくアプローチの適用を可能にする手法を提案する。
論文 参考訳(メタデータ) (2021-12-07T15:12:49Z) - Two-step reinforcement learning for model-free redesign of nonlinear
optimal regulator [1.5624421399300306]
強化学習(Reinforcement Learning, RL)は、非線形力学系のための最適制御系をモデル無しで再設計できる、有望なアプローチの1つである。
未知の非線形システムに対する最適レギュレーション再設計問題において,RLの過渡学習性能を向上させるモデルフリー2段階設計手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T17:12:33Z) - Reinforcement Learning for Safety-Critical Control under Model
Uncertainty, using Control Lyapunov Functions and Control Barrier Functions [96.63967125746747]
強化学習フレームワークは、CBFおよびCLF制約に存在するモデル不確実性を学ぶ。
RL-CBF-CLF-QPは、安全制約におけるモデル不確実性の問題に対処する。
論文 参考訳(メタデータ) (2020-04-16T10:51:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。