論文の概要: Optimal Output Feedback Learning Control for Discrete-Time Linear Quadratic Regulation
- arxiv url: http://arxiv.org/abs/2503.06226v1
- Date: Sat, 08 Mar 2025 14:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:45:18.715428
- Title: Optimal Output Feedback Learning Control for Discrete-Time Linear Quadratic Regulation
- Title(参考訳): 離散時間線形二次制御のための最適出力フィードバック学習制御
- Authors: Kedi Xiea, Martin Guay, Shimin Wang, Fang Deng, Maobin Lu,
- Abstract要約: 動的出力フィードバック学習制御を用いて,未知の離散時間系の線形2次制御問題について検討する。
状態フィードバックとは対照的に、LQR問題を解決するための動的出力フィードバック制御の最適性は、状態オブザーバの収束に関する暗黙の条件を必要とする。
本稿では、収束性、安定性、最適性性能を保証した一般化された動的出力フィードバック学習制御手法を提案する。
- 参考スコア(独自算出の注目度): 3.885549098032255
- License:
- Abstract: This paper studies the linear quadratic regulation (LQR) problem of unknown discrete-time systems via dynamic output feedback learning control. In contrast to the state feedback, the optimality of the dynamic output feedback control for solving the LQR problem requires an implicit condition on the convergence of the state observer. Moreover, due to unknown system matrices and the existence of observer error, it is difficult to analyze the convergence and stability of most existing output feedback learning-based control methods. To tackle these issues, we propose a generalized dynamic output feedback learning control approach with guaranteed convergence, stability, and optimality performance for solving the LQR problem of unknown discrete-time linear systems. In particular, a dynamic output feedback controller is designed to be equivalent to a state feedback controller. This equivalence relationship is an inherent property without requiring convergence of the estimated state by the state observer, which plays a key role in establishing the off-policy learning control approaches. By value iteration and policy iteration schemes, the adaptive dynamic programming based learning control approaches are developed to estimate the optimal feedback control gain. In addition, a model-free stability criterion is provided by finding a nonsingular parameterization matrix, which contributes to establishing a switched iteration scheme. Furthermore, the convergence, stability, and optimality analyses of the proposed output feedback learning control approaches are given. Finally, the theoretical results are validated by two numerical examples.
- Abstract(参考訳): 本稿では、動的出力フィードバック学習制御を用いて、未知の離散時間系の線形二次制御(LQR)問題を考察する。
状態フィードバックとは対照的に、LQR問題を解決するための動的出力フィードバック制御の最適性は、状態オブザーバの収束に関する暗黙の条件を必要とする。
さらに、未知のシステム行列とオブザーバエラーの存在により、既存の出力フィードバック学習に基づく制御手法の収束と安定性を解析することは困難である。
これらの問題に対処するため、未知の離散時間線形システムのLQR問題を解決するために、収束性、安定性、最適性を保証した一般化された動的出力フィードバック学習制御手法を提案する。
特に、動的出力フィードバックコントローラは状態フィードバックコントローラと等価であるように設計されている。
この同値関係は、国家オブザーバによる推定状態の収束を必要としない固有の性質であり、非政治的な学習制御アプローチを確立する上で重要な役割を果たしている。
適応型動的プログラミングに基づく学習制御手法は,評価反復とポリシー反復方式により最適フィードバック制御ゲインを推定する。
さらに、非特異パラメータ化行列を求めることにより、切り換えた繰り返しスキームの確立に寄与するモデルフリー安定性基準を提供する。
さらに,提案した出力フィードバック学習制御手法の収束性,安定性,最適性の解析を行った。
最後に、理論的結果は2つの数値的な例によって検証される。
関連論文リスト
- Stable Inverse Reinforcement Learning: Policies from Control Lyapunov Landscapes [4.229902091180109]
実験データからリアプノフ関数を学習するための新しい安定度認証IRL手法を提案する。
関連する制御ポリシーのクローズドフォーム表現を利用することで、CLFの空間を効率的に探索することができる。
我々は,CLFが提供する最適性に関する理論的解析を行い,シミュレーションデータと実世界データの両方を用いて我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-14T16:40:45Z) - Unifying Controller Design for Stabilizing Nonlinear Systems with
Norm-Bounded Control Inputs [8.573073817861973]
本稿では,ノルム有界な入力制約を持つ非線形システムの安定化制御系の設計における課題を再考する。
Lin-Sontagの普遍的な公式を拡張し、汎用的な(状態に依存した)スケーリング項を導入することにより、統一的なコントローラ設計法を提案する。
論文 参考訳(メタデータ) (2024-03-05T15:06:16Z) - Incorporating Recurrent Reinforcement Learning into Model Predictive
Control for Adaptive Control in Autonomous Driving [11.67417895998434]
モデル予測制御(MPC)は、強力な制御技術として自律運転タスクに大きな注目を集めている。
本稿では,この問題を部分的に観測されたマルコフ決定過程(POMDP)として再検討する。
次に、最適かつ適応的な制御のために、リカレント強化学習(RRL)を通して、動的モデルのパラメータを継続的に適応させるリカレントポリシーを学習する。
論文 参考訳(メタデータ) (2023-01-30T22:11:07Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。