論文の概要: Sub-linear Regret in Adaptive Model Predictive Control
- arxiv url: http://arxiv.org/abs/2310.04842v1
- Date: Sat, 7 Oct 2023 15:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 15:07:14.447374
- Title: Sub-linear Regret in Adaptive Model Predictive Control
- Title(参考訳): 適応モデル予測制御における部分線形後悔
- Authors: Damianos Tranos and Alexandre Proutiere
- Abstract要約: 本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
- 参考スコア(独自算出の注目度): 56.705978425244496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of adaptive Model Predictive Control (MPC) for
uncertain linear-systems with additive disturbances and with state and input
constraints. We present STT-MPC (Self-Tuning Tube-based Model Predictive
Control), an online algorithm that combines the certainty-equivalence principle
and polytopic tubes. Specifically, at any given step, STT-MPC infers the system
dynamics using the Least Squares Estimator (LSE), and applies a controller
obtained by solving an MPC problem using these estimates. The use of polytopic
tubes is so that, despite the uncertainties, state and input constraints are
satisfied, and recursive-feasibility and asymptotic stability hold. In this
work, we analyze the regret of the algorithm, when compared to an oracle
algorithm initially aware of the system dynamics. We establish that the
expected regret of STT-MPC does not exceed $O(T^{1/2 + \epsilon})$, where
$\epsilon \in (0,1)$ is a design parameter tuning the persistent excitation
component of the algorithm. Our result relies on a recently proposed
exponential decay of sensitivity property and, to the best of our knowledge, is
the first of its kind in this setting. We illustrate the performance of our
algorithm using a simple numerical example.
- Abstract(参考訳): 本稿では,不確実な線形システムに対する適応型モデル予測制御(MPC)の問題点について考察する。
本稿では,STT-MPC(Self-Tuning tube-based Model Predictive Control)を提案する。
具体的には、任意のステップにおいて、STT-MPCはLSE(Last Squares Estimator)を用いてシステムの力学を推定し、これらの推定を用いてMPC問題を解くことで得られるコントローラを適用する。
ポリトープチューブの使用は、不確実性にもかかわらず、状態と入力の制約が満たされ、再帰的実現性と漸近安定性が保たれる。
本研究では,システム力学を最初に認識していたオラクルアルゴリズムと比較して,アルゴリズムの後悔を分析する。
STT-MPC の期待された後悔は $O(T^{1/2 + \epsilon})$ を超えないことを確立し、$\epsilon \in (0,1)$ はアルゴリズムの持続的励起成分をチューニングした設計パラメータである。
我々の結果は、最近提案された感度特性の指数関数的崩壊に依存しており、私たちの知る限りでは、この環境ではこの種のものとなる。
簡単な数値例を用いて,本アルゴリズムの性能について述べる。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Parameter-Agnostic Optimization under Relaxed Smoothness [25.608968462899316]
本研究では,モメンタムを用いた正規化グラディエントDescence (NSGD-M) が,問題パラメータの事前知識を必要とせずに,速度-最適の複雑性を実現できることを示す。
決定論的設定では、指数係数は、バックトラックラインサーチによるグラディエント・ディクスト(Gradient Descent)を用いることで、中和することができる。
論文 参考訳(メタデータ) (2023-11-06T16:39:53Z) - Learning Stochastic Parametric Differentiable Predictive Control
Policies [2.042924346801313]
本稿では、ニューラルネットワークポリシーの教師なし学習のための、パラメトリック微分可能予測制御(SP-DPC)と呼ばれるスケーラブルな代替手法を提案する。
SP-DPCはパラメトリック制約最適制御問題に対する決定論的近似として定式化される。
閉ループ制約と確率満足度に関するSP-DPC法を用いて学習したポリシーに関する理論的確率的保証を提供する。
論文 参考訳(メタデータ) (2022-03-02T22:46:32Z) - Reliably-stabilizing piecewise-affine neural network controllers [5.203329540700177]
モデル予測制御(MPC)ポリシーのニューラルネットワーク(NN)近似に影響を与える一般的な問題は、NNベースのコントローラの動作の下でクローズドループシステムの安定性を評価するための分析ツールがないことである。
本稿では、そのような制御器の性能を定量化したり、与えられたMPCスキームの望ましい特性を保持する最小の複雑性NNを設計するための一般的な手順を提案する。
論文 参考訳(メタデータ) (2021-11-13T20:01:43Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。