論文の概要: Regret-Optimal LQR Control
- arxiv url: http://arxiv.org/abs/2105.01244v2
- Date: Thu, 13 Apr 2023 07:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 21:03:41.294557
- Title: Regret-Optimal LQR Control
- Title(参考訳): regret-optimal lqr制御
- Authors: Oron Sabag and Gautam Goel and Sahin Lale and Babak Hassibi
- Abstract要約: すべてのエネルギー障害に対する最悪の後悔を最小限に抑える因果制御器を見つける。
我々は、最適後悔と状態空間設定に対する後悔最適制御のために明確な公式を導出する。
後悔の最適制御器は、制御系設計のための実行可能な選択肢として自身を提示する。
- 参考スコア(独自算出の注目度): 37.99652162611661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the infinite-horizon LQR control problem. Motivated by
competitive analysis in online learning, as a criterion for controller design
we introduce the dynamic regret, defined as the difference between the LQR cost
of a causal controller (that has only access to past disturbances) and the LQR
cost of the \emph{unique} clairvoyant one (that has also access to future
disturbances) that is known to dominate all other controllers. The regret
itself is a function of the disturbances, and we propose to find a causal
controller that minimizes the worst-case regret over all bounded energy
disturbances. The resulting controller has the interpretation of guaranteeing
the smallest regret compared to the best non-causal controller that can see the
future. We derive explicit formulas for the optimal regret and for the
regret-optimal controller for the state-space setting. These explicit solutions
are obtained by showing that the regret-optimal control problem can be reduced
to a Nehari extension problem that can be solved explicitly. The regret-optimal
controller is shown to be linear and can be expressed as the sum of the
classical $H_2$ state-feedback law and an $n$-th order controller ($n$ is the
state dimension), and its construction simply requires a solution to the
standard LQR Riccati equation and two Lyapunov equations. Simulations over a
range of plants demonstrate that the regret-optimal controller interpolates
nicely between the $H_2$ and the $H_\infty$ optimal controllers, and generally
has $H_2$ and $H_\infty$ costs that are simultaneously close to their optimal
values. The regret-optimal controller thus presents itself as a viable option
for control systems design.
- Abstract(参考訳): 無限ホリゾンのlqr制御問題を考える。
オンライン学習における競争分析に動機づけられて,制御設計の基準として,因果コントローラのlqrコスト(過去の障害にのみアクセス可能)と,他のすべてのコントローラを支配下に置くことで知られる \emph{unique} clairvoyant のlqrコスト(将来の障害にもアクセス可能)との差として定義される動的後悔を紹介する。
後悔そのものは障害の関数であり,全てのエネルギー障害に対する最悪の後悔を最小限に抑える因果制御器を提案する。
結果として生じるコントローラは、未来を見ることができる最高の非因果的コントローラと比較して最小の後悔を保証するという解釈を持つ。
我々は、最適後悔と状態空間設定に対する後悔最適制御のために明確な公式を導出する。
これらの明示解は、後悔-最適制御問題は明示的に解くことができるnehari拡張問題に還元できることを示すことによって得られる。
後悔最適制御器は線型であることが示され、古典的な$H_2$状態フィードバック法則と$n$-次制御器(n$は状態次元)の和として表すことができ、その構成は単に標準的な LQR Riccati 方程式と 2つのリアプノフ方程式の解を必要とする。
プラントのシミュレーションでは、後悔最適コントローラが$H_2$と$H_\infty$の最適コントローラをうまく補間し、一般的には$H_2$と$H_\infty$のコストがそれらの最適値に同時に近いことを示す。
従って、後悔のオプションコントローラは、自身を制御システム設計の実行可能な選択肢として提示する。
関連論文リスト
- Finite Time Regret Bounds for Minimum Variance Control of Autoregressive
Systems with Exogenous Inputs [10.304902889192071]
多くの適応型コントローラが経験した重要な課題は、学習の初期段階における経験的パフォーマンスの低下である。
本稿では,探索に探索入力を利用するCertainty Equivalence (CE)適応制御器の修正版を提案する。
ガウス下雑音の場合、T$の時間ステップとClog2の時間ステップの後の後悔に基づいて$C log T$と$Clog2 T$を持つことを示す。
論文 参考訳(メタデータ) (2023-05-26T14:29:33Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Competitive Control [52.28457815067461]
我々は,オンラインコントローラの設計に重点を置き,オフラインの最適コントローラと競合するオンラインコントローラの設計に重点を置いている。
この設定における自然なパフォーマンス指標は、オンラインコントローラが引き起こしたコストとオフラインの最適コントローラが引き起こしたコストとの比である競争比である。
論文 参考訳(メタデータ) (2021-07-28T22:26:27Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Regret-optimal measurement-feedback control [39.76359052907755]
線形力学系における測定フィードバック制御を後悔の観点から検討する。
計測フィードバック設定では、全情報設定とは異なり、障害のたびに他のすべてのオフラインコントローラより優れる単一のオフラインコントローラは存在しない。
本稿では,従来のNehari問題に対する新たな削減によって,対応する後悔最適オンラインコントローラが発見できることを示し,その後悔に対するデータ依存的制約を提示する。
論文 参考訳(メタデータ) (2020-11-24T01:36:48Z) - Meta-Learning Guarantees for Online Receding Horizon Learning Control [0.0]
本稿では,オンラインメタ学習遅延水平方向制御アルゴリズムを反復制御設定で証明可能な後悔の保証を提供する。
イテレーション内で学ぶことの最悪の後悔は、より多くのイテレーションの経験によって改善されることを示します。
論文 参考訳(メタデータ) (2020-10-21T21:57:04Z) - Regret-optimal control in dynamic environments [39.76359052907755]
我々は、後から選択した制御行動の最良の動的シーケンスに対する後悔を最小限に抑えるオンラインコントローラを設計する問題に焦点をあてる。
我々は,新たなH_infty$制御への還元により,後悔最適制御系の状態空間構造を導出する。
本稿では,H_infty$-Optimal コントローラの性能と対向環境との相補性を示す数値実験について述べる。
論文 参考訳(メタデータ) (2020-10-20T17:32:17Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。