論文の概要: Technical Report: Adaptive Control for Linearizable Systems Using
On-Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.02766v1
- Date: Mon, 6 Apr 2020 15:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 06:10:38.424441
- Title: Technical Report: Adaptive Control for Linearizable Systems Using
On-Policy Reinforcement Learning
- Title(参考訳): on-policy reinforcement learning を用いた線形化システムの適応制御
- Authors: Tyler Westenbroek, Eric Mazumdar, David Fridovich-Keil, Valmik Prabhu,
Claire J. Tomlin and S. Shankar Sastry
- Abstract要約: 本稿では,未知システムに対するフィードバック線形化に基づくトラッキング制御系を適応的に学習するフレームワークを提案する。
学習した逆モデルがすべての時点において可逆である必要はない。
二重振り子の模擬例は、提案された理論の有用性を示している。
- 参考スコア(独自算出の注目度): 41.24484153212002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a framework for adaptively learning a feedback
linearization-based tracking controller for an unknown system using
discrete-time model-free policy-gradient parameter update rules. The primary
advantage of the scheme over standard model-reference adaptive control
techniques is that it does not require the learned inverse model to be
invertible at all instances of time. This enables the use of general function
approximators to approximate the linearizing controller for the system without
having to worry about singularities. However, the discrete-time and stochastic
nature of these algorithms precludes the direct application of standard
machinery from the adaptive control literature to provide deterministic
stability proofs for the system. Nevertheless, we leverage these techniques
alongside tools from the stochastic approximation literature to demonstrate
that with high probability the tracking and parameter errors concentrate near
zero when a certain persistence of excitation condition is satisfied. A
simulated example of a double pendulum demonstrates the utility of the proposed
theory. 1
- Abstract(参考訳): 本稿では,離散時間モデルフリーなポリシグレードパラメータ更新ルールを用いて,未知システムに対するフィードバック線形化に基づくトラッキング制御を適応的に学習するためのフレームワークを提案する。
標準モデル参照適応制御技術よりもこのスキームの第一の利点は、学習された逆モデルが常に可逆である必要はないことである。
これにより、一般関数近似器を用いて特異点を気にすることなく、システムの線形化コントローラを近似することができる。
しかし、これらのアルゴリズムの離散時間および確率的性質は、適応制御文献からの標準機械の直接的適用を妨げ、システムの決定論的安定性証明を提供する。
しかし,これらの手法を確率近似のツールと併用することにより,ある励振条件の持続性を満たす場合,追跡誤差とパラメータ誤差が0付近に集中することを示す。
二重振り子の模擬例は、提案された理論の有用性を示している。
1
関連論文リスト
- Actively Learning Reinforcement Learning: A Stochastic Optimal Control
Approach [3.7728340443952577]
提案する枠組みは,2つある: (i) 活発な探索と意図的な情報収集を伴う強化学習, (i) ミスマッチのモデル化による状態と不確実性を制御し, (ii) 最適制御の膨大な計算コストを克服する。
我々は、強化学習を用いて最適制御法を達成することにより、両方の目的にアプローチする。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - Adaptive Robust Model Predictive Control via Uncertainty Cancellation [25.736296938185074]
本稿では,動的に重要な不確かさを補う学習に基づく頑健な予測制御アルゴリズムを提案する。
我々は、一定の等価な「推定とキャンセル」制御法に着想を得た、非線形フィードバックポリシーのクラスを最適化する。
論文 参考訳(メタデータ) (2022-12-02T18:54:23Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - A Theoretical Overview of Neural Contraction Metrics for Learning-based
Control with Guaranteed Stability [7.963506386866862]
本稿では,最適縮尺と対応する微分リャプノフ関数のニューラルネットワークモデルを提案する。
そのイノベーションは、学習ベースの制御フレームワークに対して、正式な堅牢性を保証することである。
論文 参考訳(メタデータ) (2021-10-02T00:28:49Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Adaptive Robust Model Predictive Control with Matched and Unmatched
Uncertainty [28.10549712956161]
離散時間系のダイナミクスにおける大きな不確実性を扱うことができる学習ベースの堅牢な予測制御アルゴリズムを提案する。
既存の学習に基づく予測制御アルゴリズムが大規模な不確実性が存在する場合の安全性を確保することができず、性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-16T17:47:02Z) - Policy Analysis using Synthetic Controls in Continuous-Time [101.35070661471124]
因果推論における手法開発において, 合成制御を用いた因果推定は最も成功した手法の1つである。
本稿では,制御された微分方程式の定式化を明示的に用い,潜在反事実経路をモデル化する連続時間代替法を提案する。
論文 参考訳(メタデータ) (2021-02-02T16:07:39Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。