Fugu-MT 論文翻訳(概要): Bridging Model-based Safety and Model-free Reinforcement Learning through System Identification of Low Dimensional Linear Models

論文の概要: Bridging Model-based Safety and Model-free Reinforcement Learning through System Identification of Low Dimensional Linear Models

arxiv url: http://arxiv.org/abs/2205.05787v1
Date: Wed, 11 May 2022 22:03:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-13 13:01:55.367986
Title: Bridging Model-based Safety and Model-free Reinforcement Learning through System Identification of Low Dimensional Linear Models
Title（参考訳）: 低次元線形モデルのシステム同定によるブリッジングモデルの安全性とモデルフリー強化学習
Authors: Zhongyu Li, Jun Zeng, Akshay Thirugnanam, Koushil Sreenath
Abstract要約: モデルベース安全性とモデルフリー強化学習を組み合わせた新しい手法を提案する。閉ループ系の力学を捉えるためには,低次元の力学モデルが十分であることを示す。検出された線形モデルは、安全クリティカルな最適制御フレームワークによる保証を提供することができることを示す。
参考スコア（独自算出の注目度）: 16.511440197186918
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Bridging model-based safety and model-free reinforcement learning (RL) for dynamic robots is appealing since model-based methods are able to provide formal safety guarantees, while RL-based methods are able to exploit the robot agility by learning from the full-order system dynamics. However, current approaches to tackle this problem are mostly restricted to simple systems. In this paper, we propose a new method to combine model-based safety with model-free reinforcement learning by explicitly finding a low-dimensional model of the system controlled by a RL policy and applying stability and safety guarantees on that simple model. We use a complex bipedal robot Cassie, which is a high dimensional nonlinear system with hybrid dynamics and underactuation, and its RL-based walking controller as an example. We show that a low-dimensional dynamical model is sufficient to capture the dynamics of the closed-loop system. We demonstrate that this model is linear, asymptotically stable, and is decoupled across control input in all dimensions. We further exemplify that such linearity exists even when using different RL control policies. Such results point out an interesting direction to understand the relationship between RL and optimal control: whether RL tends to linearize the nonlinear system during training in some cases. Furthermore, we illustrate that the found linear model is able to provide guarantees by safety-critical optimal control framework, e.g., Model Predictive Control with Control Barrier Functions, on an example of autonomous navigation using Cassie while taking advantage of the agility provided by the RL-based controller.
Abstract（参考訳）: 動的ロボットのモデルベース安全性とモデルフリー強化学習(RL)は、モデルベース手法が正式な安全保証を提供することができるのに対して、RLベースの手法は、フルオーダーシステムダイナミクスから学習することでロボットの俊敏性を活用することができるため、魅力的である。しかし、この問題に対処する現在のアプローチは主に単純なシステムに限られている。本稿では、RLポリシーで制御されるシステムの低次元モデルを明確に見つけ、そのモデルに安定性と安全性の保証を適用することにより、モデルベース安全性とモデルフリー強化学習を組み合わせる新しい手法を提案する。複合型二足歩行ロボットcassieを例として,ハイブリッドダイナミクスとアンダーアクチュレーションを備えた高次元非線形システムと,そのrlベースの歩行制御器を用いた。低次元力学モデルは閉ループ系の力学を捉えるのに十分であることを示す。このモデルが線形であり,漸近安定であり,すべての次元の制御入力にまたがって分離されることを示す。さらに、異なるRL制御ポリシーを用いても、そのような線形性が存在することを実証する。このような結果は、rlと最適制御の関係を理解するための興味深い方向を示している: rlが訓練中に非線形システムを線形化する傾向があるかどうか。さらに,本手法では,制御バリア機能を有するモデル予測制御など,安全クリティカルな最適制御フレームワークによる保証をcassieを用いた自律ナビゲーションの例として実現し,rlベースの制御による機敏さを活用できることを示す。

関連論文リスト

Model-based controller assisted domain randomization in deep reinforcement learning: application to nonlinear powertrain control [0.0]
本研究では, 深部強化学習(DRL)の枠組みを用いた新しいロバスト制御手法を提案する。問題設定は、不確実性と非線形性を考慮した制御系に対して、バニラMDPの集合である潜在マルコフ決定プロセス(LMDP)を介してモデル化される。従来のDRLベースの制御と比較して、提案するコントローラ設計はより賢く、高度な一般化能力を実現することができる。
論文参考訳（メタデータ） (2025-04-28T12:09:07Z)
Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文参考訳（メタデータ） (2025-04-23T12:58:15Z)
Neural Internal Model Control: Learning a Robust Control Policy via Predictive Error Feedback [16.46487826869775]
本稿では,モデルベース制御とRLベース制御を統合し,ロバスト性を高めるニューラル内部モデル制御を提案する。我々のフレームワークは、剛体力学にニュートン・オイラー方程式を適用することで予測モデルを合理化し、複雑な高次元非線形性を捉える必要がなくなる。本研究では,四足歩行ロボットと四足歩行ロボットにおけるフレームワークの有効性を実証し,最先端の手法と比較して優れた性能を実現する。
論文参考訳（メタデータ） (2024-11-20T07:07:42Z)
Learning Exactly Linearizable Deep Dynamics Models [0.07366405857677226]
本稿では, 安定度, 信頼性, 信頼性を確保するために, 様々な制御理論を容易に適用可能な, 線形化可能な動的モデルの学習法を提案する。提案手法は, 自動車エンジンのリアルタイム制御に応用され, 予測性能と制約下での安定制御が良好であることを示す。
論文参考訳（メタデータ） (2023-11-30T05:40:55Z)
In-Distribution Barrier Functions: Self-Supervised Policy Filters that Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文参考訳（メタデータ） (2023-01-27T22:28:19Z)
Neural Abstractions [72.42530499990028]
本稿では,ニューラルネットワークを用いた非線形力学モデルの安全性検証手法を提案する。提案手法は,既存のベンチマーク非線形モデルにおいて,成熟度の高いFlow*と同等に動作することを示す。
論文参考訳（メタデータ） (2023-01-27T12:38:09Z)
Efficient Learning of Voltage Control Strategies via Model-based Deep Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-06T02:50:53Z)
Model-Based Reinforcement Learning with SINDy [0.0]
強化学習(RL)における物理系の非線形力学を規定する新しい手法を提案する。本手法は,技術モデル学習アルゴリズムの状態よりもはるかに少ないトラジェクトリを用いて,基礎となるダイナミクスを発見することができることを確認した。
論文参考訳（メタデータ） (2022-08-30T19:03:48Z)
Bridging the Model-Reality Gap with Lipschitz Network Adaptation [22.499090318313662]
ロボットが現実世界に進出するにつれ、ロボットは非モデル化された力学と乱れにさらされる。従来のモデルベースの制御アプローチは、比較的静的で既知の運用環境で成功している。本稿では,モデルと現実のギャップを埋め,動的不確実性が存在する場合でもモデルに基づくアプローチの適用を可能にする手法を提案する。
論文参考訳（メタデータ） (2021-12-07T15:12:49Z)
Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文参考訳（メタデータ） (2021-06-03T17:58:51Z)
Reinforcement Learning for Safety-Critical Control under Model Uncertainty, using Control Lyapunov Functions and Control Barrier Functions [96.63967125746747]
強化学習フレームワークは、CBFおよびCLF制約に存在するモデル不確実性を学ぶ。 RL-CBF-CLF-QPは、安全制約におけるモデル不確実性の問題に対処する。
論文参考訳（メタデータ） (2020-04-16T10:51:33Z)
Adaptive Control and Regret Minimization in Linear Quadratic Gaussian (LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。 LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文参考訳（メタデータ） (2020-03-12T19:56:38Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。