論文の概要: Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory
- arxiv url: http://arxiv.org/abs/2006.11022v2
- Date: Mon, 23 Nov 2020 09:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 05:23:56.650965
- Title: Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory
- Title(参考訳): 単一軌道からの不安定線形二次レギュレータの学習安定化制御
- Authors: Lenart Treven, Sebastian Curi, Mojmir Mutny, Andreas Krause
- Abstract要約: 線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
- 参考スコア(独自算出の注目度): 85.29718245299341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The principal task to control dynamical systems is to ensure their stability.
When the system is unknown, robust approaches are promising since they aim to
stabilize a large set of plausible systems simultaneously. We study linear
controllers under quadratic costs model also known as linear quadratic
regulators (LQR). We present two different semi-definite programs (SDP) which
results in a controller that stabilizes all systems within an ellipsoid
uncertainty set. We further show that the feasibility conditions of the
proposed SDPs are \emph{equivalent}. Using the derived robust controller
syntheses, we propose an efficient data dependent algorithm --
\textsc{eXploration} -- that with high probability quickly identifies a
stabilizing controller. Our approach can be used to initialize existing
algorithms that require a stabilizing controller as an input while adding
constant to the regret. We further propose different heuristics which
empirically reduce the number of steps taken by \textsc{eXploration} and reduce
the suffered cost while searching for a stabilizing controller.
- Abstract(参考訳): 力学系を制御する主な課題は安定性を確保することである。
システムが不明な場合、多数の可視系を同時に安定化することを目的としており、堅牢なアプローチは有望である。
二次コストモデルに基づく線形コントローラを線形二次レギュレータ (lqr) として検討した。
我々は,楕円型不確かさ集合内の全ての系を安定化する2つの異なる半定値プログラム(sdp)を提案する。
さらに、提案したSDPの実現可能性条件が \emph{equivalent} であることを示す。
導出されたロバストコントローラ合成を用いて、高い確率で安定化コントローラを迅速に識別する効率的なデータ依存アルゴリズム -\textsc{eXploration} を提案する。
当社のアプローチは,インプットとして安定化コントローラを必要とする既存のアルゴリズムを初期化し,後悔に定数を追加するために使用することができる。
さらに, 安定化コントローラを探索しながら, 経験的に, textsc{eXploration} のステップ数を減らし, コストを削減できる様々なヒューリスティックスを提案する。
関連論文リスト
- Stability Bounds for Learning-Based Adaptive Control of Discrete-Time
Multi-Dimensional Stochastic Linear Systems with Input Constraints [3.8004168340068336]
本研究では,有界制御入力制約と非有界障害を有する離散時間多次元システムの適応安定化問題について考察する。
本稿では,オンラインパラメータ推定と飽和線形制御を組み合わせた等価制御手法を提案する。
論文 参考訳(メタデータ) (2023-04-02T16:38:13Z) - Neural System Level Synthesis: Learning over All Stabilizing Policies
for Nonlinear Systems [0.0]
本稿では,パラメータ最適化における閉ループ安定性を保証するニューラルSLS(Neur-SLS)手法を提案する。
本稿では,Recurrent Equilibrium Networks (RENs) に基づく最近のDeep Neural Network (DNN) モデルを用いて,非線形安定演算子の豊富なクラスについて学習する。
論文 参考訳(メタデータ) (2022-03-22T15:22:31Z) - Stabilizing Dynamical Systems via Policy Gradient Methods [32.88312419270879]
完全に観察された力学系を安定化するためのモデルフリーなアルゴリズムを提案する。
本研究では,線形システムの安定化制御を効率よく行うことを証明する。
我々は,共通制御ベンチマークにおけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2021-10-13T00:58:57Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Stable Online Control of Linear Time-Varying Systems [49.41696101740271]
COCO-LQは、大規模なLTVシステムの入出力安定性を保証する効率的なオンライン制御アルゴリズムである。
COCO-LQの性能を実証実験とパワーシステム周波数制御の両例で実証した。
論文 参考訳(メタデータ) (2021-04-29T06:18:49Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Robust Model-Free Learning and Control without Prior Knowledge [1.14219428942199]
本稿では,未知の離散時間線形系を頑健に学習し,安定化するモデルフリー制御アルゴリズムを提案する。
コントローラはシステムダイナミクス、障害、ノイズに関する事前の知識を必要としない。
一般化と簡易性にもかかわらず、制御器はクローズドループ性能がよいことを示すシミュレーション結果で結論を下す。
論文 参考訳(メタデータ) (2020-10-01T05:43:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z) - Optimistic robust linear quadratic dual control [4.94950858749529]
本稿では, 一定の等価性の性能とロバスト性の実用性を両立させようとする二重制御戦略を提案する。
この定式化は、パラメトリック不確実性の表現における構造を保ち、制御タスクにおいて最も重要となるパラメータにおける不確実性の減少をコントローラが目標とすることを可能にする。
論文 参考訳(メタデータ) (2019-12-31T02:02:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。