論文の概要: Reinforcement Learning of the Prediction Horizon in Model Predictive
Control
- arxiv url: http://arxiv.org/abs/2102.11122v1
- Date: Mon, 22 Feb 2021 15:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 14:32:41.627992
- Title: Reinforcement Learning of the Prediction Horizon in Model Predictive
Control
- Title(参考訳): モデル予測制御における予測地平線の強化学習
- Authors: Eivind B{\o}hn, Sebastien Gros, Signe Moe, Tor Arne Johansen
- Abstract要約: 強化学習(RL)を用いた状態関数としての最適予測地平線学習を提案する。
本稿では,RL学習問題を定式化して2つの制御タスクでテストする方法を示し,固定地平線MPC方式に対する改善点を示す。
- 参考スコア(独自算出の注目度): 1.536989504296526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model predictive control (MPC) is a powerful trajectory optimization control
technique capable of controlling complex nonlinear systems while respecting
system constraints and ensuring safe operation. The MPC's capabilities come at
the cost of a high online computational complexity, the requirement of an
accurate model of the system dynamics, and the necessity of tuning its
parameters to the specific control application. The main tunable parameter
affecting the computational complexity is the prediction horizon length,
controlling how far into the future the MPC predicts the system response and
thus evaluates the optimality of its computed trajectory. A longer horizon
generally increases the control performance, but requires an increasingly
powerful computing platform, excluding certain control applications.The
performance sensitivity to the prediction horizon length varies over the state
space, and this motivated the adaptive horizon model predictive control
(AHMPC), which adapts the prediction horizon according to some criteria. In
this paper we propose to learn the optimal prediction horizon as a function of
the state using reinforcement learning (RL). We show how the RL learning
problem can be formulated and test our method on two control tasks, showing
clear improvements over the fixed horizon MPC scheme, while requiring only
minutes of learning.
- Abstract(参考訳): モデル予測制御(MPC)は、システムの制約を尊重しつつ複雑な非線形システムを制御し、安全な運転を確保することができる強力な軌道最適化制御技術である。
MPCの能力は、高いオンライン計算の複雑さ、システムのダイナミクスの正確なモデルの要件、および特定の制御アプリケーションにパラメータを調整する必要性のコストが伴います。
計算複雑性に影響を与える主な調整可能なパラメータは予測水平長であり、MPCがシステム応答を予測するまでの距離を制御し、計算された軌道の最適性を評価する。
より長い地平線は一般に制御性能を向上させるが、特定の制御アプリケーションを除いて、より強力なコンピューティングプラットフォームを必要とし、予測地平線長に対する性能感度は状態空間によって異なるため、いくつかの基準に従って予測地平線を適応する適応地平線モデル予測制御(AHMPC)が動機付けられる。
本稿では,強化学習(RL)を用いて状態の関数として最適予測地平線を学習することを提案する。
RL学習の問題をどのように定式化し、2つの制御タスクでテストし、固定地平線MPCスキームよりも明確な改善を示しながら、わずか数分の学習を必要とします。
関連論文リスト
- End-to-End Reinforcement Learning of Koopman Models for Economic
Nonlinear Model Predictive Control [50.0791489606211]
非線形モデル予測制御((e)NMPC)は、すべての状態空間領域において十分正確なシステムモデルを必要とする。
メカニスティックモデルのためのデータ駆動サロゲートモデルは、(e)NMPCの計算負担を軽減するために使用できる。
In this method for end-to-end reinforcement learning of dynamic surrogate model for optimal performance in (e)NMPC applications。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Neural Predictive Control for the Optimization of Smart Grid Flexibility
Schedules [0.0]
モデル予測制御(MPC)は,格子フレキシビリティの最適スケジューリング問題を数学的に定式化する手法である。
MPC法は時間制約グリッド最適化の正確な結果を約束するが、大規模で複雑な電力系統モデルに必要な計算時間によって本質的に制限される。
線形及び非線形電力系統の最適制御ポリシーを模倣により学習するニューラルネットワーク予測制御方式を提案する。
論文 参考訳(メタデータ) (2021-08-19T15:12:35Z) - Regret Analysis of Learning-Based MPC with Partially-Unknown Cost
Function [5.601217969637838]
探索/探索のトレードオフは、データ駆動および適応制御において固有の課題である。
本稿では、最適制御動作の基準として、全てのシステムパラメータの完全な知識を持つ有限水平オラクルコントローラを提案する。
我々は,このオラクル有限ホライゾンコントローラに関して,低後悔を達成できる学習ベースのポリシーを開発する。
論文 参考訳(メタデータ) (2021-08-04T22:43:51Z) - Deep Learning Explicit Differentiable Predictive Control Laws for
Buildings [1.4121977037543585]
未知の非線形システムに対する制約付き制御法を学習するための微分予測制御(DPC)手法を提案する。
DPCは、明示的非線形モデル予測制御(MPC)から生じるマルチパラメトリックプログラミング問題に対する近似解を提供する
論文 参考訳(メタデータ) (2021-07-25T16:47:57Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Optimization of the Model Predictive Control Update Interval Using
Reinforcement Learning [0.7952582509792969]
制御アプリケーションでは、コントローラの複雑さと性能に関して、しばしば妥協が必要である。
本稿では,制御対象に合わせて計算コストを明示的に最適化するコントローラアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-26T16:01:52Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。