論文の概要: Regret-Optimal Full-Information Control
- arxiv url: http://arxiv.org/abs/2105.01244v1
- Date: Tue, 4 May 2021 01:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 20:35:29.456223
- Title: Regret-Optimal Full-Information Control
- Title(参考訳): 後悔の最適フルインフォメーション制御
- Authors: Oron Sabag and Gautam Goel and Sahin Lale and Babak Hassibi
- Abstract要約: 我々は、因果制御器のLQRコストと透視器のLQRコストとの差として定義される後悔に焦点を当てた。
全情報設定では、LQRコストが他のすべてのコントローラを支配しているユニークな最適非因果制御器が存在する。
後悔最適制御器をネハリ(すなわち、作用素ノルムに因果関係を持つ反コーサル作用素を近似するために)に還元できることを示す。
- 参考スコア(独自算出の注目度): 48.172386217373344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the infinite-horizon, discrete-time full-information control
problem. Motivated by learning theory, as a criterion for controller design we
focus on regret, defined as the difference between the LQR cost of a causal
controller (that has only access to past and current disturbances) and the LQR
cost of a clairvoyant one (that has also access to future disturbances). In the
full-information setting, there is a unique optimal non-causal controller that
in terms of LQR cost dominates all other controllers. Since the regret itself
is a function of the disturbances, we consider the worst-case regret over all
possible bounded energy disturbances, and propose to find a causal controller
that minimizes this worst-case regret. The resulting controller has the
interpretation of guaranteeing the smallest possible regret compared to the
best non-causal controller, no matter what the future disturbances are. We show
that the regret-optimal control problem can be reduced to a Nehari problem,
i.e., to approximate an anticausal operator with a causal one in the operator
norm. In the state-space setting, explicit formulas for the optimal regret and
for the regret-optimal controller (in both the causal and the strictly causal
settings) are derived. The regret-optimal controller is the sum of the
classical $H_2$ state-feedback law and a finite-dimensional controller obtained
from the Nehari problem. The controller construction simply requires the
solution to the standard LQR Riccati equation, in addition to two Lyapunov
equations. Simulations over a range of plants demonstrates that the
regret-optimal controller interpolates nicely between the $H_2$ and the
$H_\infty$ optimal controllers, and generally has $H_2$ and $H_\infty$ costs
that are simultaneously close to their optimal values. The regret-optimal
controller thus presents itself as a viable option for control system design.
- Abstract(参考訳): 我々は無限ホリゾン離散時間全情報制御問題を考える。
学習理論によってモチベーションを得たコントローラ設計の基準として、私たちは後悔に焦点を当て、因果制御器のLQRコスト(過去と現在の乱れにしかアクセスできない)と透視器のLQRコスト(将来の乱れにもアクセスできる)の差として定義される。
全情報設定では、LQRコストが他のすべてのコントローラを支配しているユニークな最適非因果制御器が存在する。
後悔そのものが乱れの関数であるため、あらゆる有界エネルギーの乱れに対する最悪の後悔を考慮し、この最悪の後悔を最小限に抑える因果制御器を見つけることを提案する。
結果として生じるコントローラは、将来の混乱が何であれ、最高の非因果的コントローラと比較して最小限の後悔を保証できるという解釈を持つ。
我々は, 反因果作用素を作用素ノルムの因果作用素と近似するために, 後悔と最適制御問題をネハリ問題に還元できることを示した。
状態空間設定では、最適後悔と(因果的および厳密な因果的設定の両方において)後悔最適制御に対する明示的な公式が導出される。
後悔最適コントローラは古典的な$H_2$状態フィードバック法則とネハリ問題から得られる有限次元コントローラの和である。
コントローラーの構成は、単純に2つのリャプノフ方程式に加えて、標準的なLQR Riccati方程式の解を必要とする。
プラントのシミュレーションでは、後悔最適制御器が$H_2$と$H_\infty$最適制御器の間をうまく補間し、一般的には$H_2$と$H_\infty$のコストがそれらの最適値に同時に近いことを示す。
従って、後悔-最適化コントローラは、自身を制御システム設計の実行可能な選択肢として提示する。
関連論文リスト
- Finite Time Regret Bounds for Minimum Variance Control of Autoregressive
Systems with Exogenous Inputs [10.304902889192071]
多くの適応型コントローラが経験した重要な課題は、学習の初期段階における経験的パフォーマンスの低下である。
本稿では,探索に探索入力を利用するCertainty Equivalence (CE)適応制御器の修正版を提案する。
ガウス下雑音の場合、T$の時間ステップとClog2の時間ステップの後の後悔に基づいて$C log T$と$Clog2 T$を持つことを示す。
論文 参考訳(メタデータ) (2023-05-26T14:29:33Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Competitive Control [52.28457815067461]
我々は,オンラインコントローラの設計に重点を置き,オフラインの最適コントローラと競合するオンラインコントローラの設計に重点を置いている。
この設定における自然なパフォーマンス指標は、オンラインコントローラが引き起こしたコストとオフラインの最適コントローラが引き起こしたコストとの比である競争比である。
論文 参考訳(メタデータ) (2021-07-28T22:26:27Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Regret-optimal measurement-feedback control [39.76359052907755]
線形力学系における測定フィードバック制御を後悔の観点から検討する。
計測フィードバック設定では、全情報設定とは異なり、障害のたびに他のすべてのオフラインコントローラより優れる単一のオフラインコントローラは存在しない。
本稿では,従来のNehari問題に対する新たな削減によって,対応する後悔最適オンラインコントローラが発見できることを示し,その後悔に対するデータ依存的制約を提示する。
論文 参考訳(メタデータ) (2020-11-24T01:36:48Z) - Meta-Learning Guarantees for Online Receding Horizon Learning Control [0.0]
本稿では,オンラインメタ学習遅延水平方向制御アルゴリズムを反復制御設定で証明可能な後悔の保証を提供する。
イテレーション内で学ぶことの最悪の後悔は、より多くのイテレーションの経験によって改善されることを示します。
論文 参考訳(メタデータ) (2020-10-21T21:57:04Z) - Regret-optimal control in dynamic environments [39.76359052907755]
我々は、後から選択した制御行動の最良の動的シーケンスに対する後悔を最小限に抑えるオンラインコントローラを設計する問題に焦点をあてる。
我々は,新たなH_infty$制御への還元により,後悔最適制御系の状態空間構造を導出する。
本稿では,H_infty$-Optimal コントローラの性能と対向環境との相補性を示す数値実験について述べる。
論文 参考訳(メタデータ) (2020-10-20T17:32:17Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。