論文の概要: Regret Analysis of Learning-Based MPC with Partially-Unknown Cost
Function
- arxiv url: http://arxiv.org/abs/2108.02307v1
- Date: Wed, 4 Aug 2021 22:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:32:40.437422
- Title: Regret Analysis of Learning-Based MPC with Partially-Unknown Cost
Function
- Title(参考訳): 部分的未知コスト関数を持つ学習型mpcの後悔解析
- Authors: Ilgin Dogan, Zuo-Jun Max Shen, and Anil Aswani
- Abstract要約: 探索/探索のトレードオフは、データ駆動および適応制御において固有の課題である。
本稿では、最適制御動作の基準として、全てのシステムパラメータの完全な知識を持つ有限水平オラクルコントローラを提案する。
我々は,このオラクル有限ホライゾンコントローラに関して,低後悔を達成できる学習ベースのポリシーを開発する。
- 参考スコア(独自算出の注目度): 5.601217969637838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exploration/exploitation trade-off is an inherent challenge in
data-driven and adaptive control. Though this trade-off has been studied for
multi-armed bandits, reinforcement learning (RL) for finite Markov chains, and
RL for linear control systems; it is less well-studied for learning-based
control of nonlinear control systems. A significant theoretical challenge in
the nonlinear setting is that, unlike the linear case, there is no explicit
characterization of an optimal controller for a given set of cost and system
parameters. We propose in this paper the use of a finite-horizon oracle
controller with perfect knowledge of all system parameters as a reference for
optimal control actions. First, this allows us to propose a new regret notion
with respect to this oracle finite-horizon controller. Second, this allows us
to develop learning-based policies that we prove achieve low regret (i.e.,
square-root regret up to a log-squared factor) with respect to this oracle
finite-horizon controller. This policy is developed in the context of
learning-based model predictive control (LBMPC). We conduct a statistical
analysis to prove finite sample concentration bounds for the estimation step of
our policy, and then we perform a control-theoretic analysis using techniques
from MPC- and optimization-theory to show this policy ensures closed-loop
stability and achieves low regret. We conclude with numerical experiments on a
model of heating, ventilation, and air-conditioning (HVAC) systems that show
the low regret of our policy in a setting where the cost function is
partially-unknown to the controller.
- Abstract(参考訳): 探索/探索のトレードオフは、データ駆動および適応制御において固有の課題である。
このトレードオフは, 有限マルコフ連鎖に対する強化学習 (RL) や線形制御系に対する強化学習 (RL) に対して研究されているが, 非線形制御系の学習ベース制御にはあまり研究されていない。
非線形設定における重要な理論的課題は、線形の場合とは異なり、与えられたコストとシステムパラメータのセットに対する最適制御器の明示的なキャラクタリゼーションがないことである。
本稿では, 最適制御動作の基準として, 全システムパラメータの完全な知識を有する有限ホリゾン oracle コントローラの利用を提案する。
まず、このoracleの有限ホライゾンコントローラに関して、新たな後悔の概念を提案することができます。
第二に、このoracleの有限ホライゾンコントローラに関して、少ない後悔(すなわち、二乗根の後悔)を達成するための学習ベースのポリシーの開発を可能にします。
このポリシーは学習ベースモデル予測制御(LBMPC)の文脈で開発されている。
提案手法は, MPC法と最適化理論の手法を用いて, 閉ループ安定性を保証し, 後悔度を低くするために, 有限試料濃度境界を統計的に解析し, 制御理論解析を行う。
我々は,コスト関数が部分的には知られていない環境で,我々の政策の後悔度を低く示す加熱,換気,空調(HVAC)システムのモデルに関する数値実験で結論付けた。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Optimal Exploration for Model-Based RL in Nonlinear Systems [14.540210895533937]
未知の非線形力学系を制御する学習は、強化学習と制御理論の基本的な問題である。
本研究では,タスク依存メトリックにおける不確実性を低減するために,効率よくシステムを探索できるアルゴリズムを開発した。
我々のアルゴリズムは、ポリシー最適化から任意のシステムにおける最適な実験設計への一般的な還元に依存しており、独立した関心を持つ可能性がある。
論文 参考訳(メタデータ) (2023-06-15T15:47:50Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。