論文の概要: End-to-End Reinforcement Learning of Koopman Models for Economic
Nonlinear Model Predictive Control
- arxiv url: http://arxiv.org/abs/2308.01674v2
- Date: Mon, 28 Aug 2023 15:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 21:05:49.355887
- Title: End-to-End Reinforcement Learning of Koopman Models for Economic
Nonlinear Model Predictive Control
- Title(参考訳): 経済非線形モデル予測制御のためのkoopmanモデルのエンドツーエンド強化学習
- Authors: Daniel Mayfrank, Alexander Mitsos, Manuel Dahmen
- Abstract要約: 非線形モデル予測制御((e)NMPC)は、すべての状態空間領域において十分正確なシステムモデルを必要とする。
メカニスティックモデルのためのデータ駆動サロゲートモデルは、(e)NMPCの計算負担を軽減するために使用できる。
In this method for end-to-end reinforcement learning of dynamic surrogate model for optimal performance in (e)NMPC applications。
- 参考スコア(独自算出の注目度): 50.0791489606211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: (Economic) nonlinear model predictive control ((e)NMPC) requires dynamic
system models that are sufficiently accurate in all relevant state-space
regions. These models must also be computationally cheap enough to ensure
real-time tractability. Data-driven surrogate models for mechanistic models can
be used to reduce the computational burden of (e)NMPC; however, such models are
typically trained by system identification for maximum average prediction
accuracy on simulation samples and perform suboptimally as part of actual
(e)NMPC. We present a method for end-to-end reinforcement learning of dynamic
surrogate models for optimal performance in (e)NMPC applications, resulting in
predictive controllers that strike a favorable balance between control
performance and computational demand. We validate our method on two
applications derived from an established nonlinear continuous stirred-tank
reactor model. We compare the controller performance to that of MPCs utilizing
models trained by the prevailing maximum prediction accuracy paradigm, and
model-free neural network controllers trained using reinforcement learning. We
show that our method matches the performance of the model-free neural network
controllers while consistently outperforming models derived from system
identification. Additionally, we show that the MPC policies can react to
changes in the control setting without retraining.
- Abstract(参考訳): (経済)非線形モデル予測制御((e)NMPC)は、すべての状態空間領域において十分に正確な動的システムモデルを必要とする。
これらのモデルは、リアルタイムのトラクタビリティを確保するのに十分な計算コストも必要である。
機械モデルのためのデータ駆動サーロゲートモデルは、(e)nmpcの計算負荷を軽減するために用いられるが、シミュレーションサンプルにおける最大平均予測精度のためにシステム同定によって訓練され、実際の(e)nmpcの一部として最適化される。
本稿では,(e)NMPCアプリケーションにおける動的サロゲートモデルのエンドツーエンド強化学習手法を提案する。
提案手法は, 確立された非線形連続発振タンク反応器モデルから導出した2つの応用について検証する。
最大予測精度パラダイムで訓練されたモデルと、強化学習を用いて訓練されたモデルフリーニューラルネットワークコントローラを用いて、制御性能をMPCと比較する。
本手法は,モデルフリーニューラルネットワークコントローラの性能に適合すると同時に,システム同定に基づくモデルよりも高い性能を発揮できることを示す。
さらに,mpcポリシが再トレーニングすることなく,制御設定の変更に対応できることを示す。
関連論文リスト
- Dropout MPC: An Ensemble Neural MPC Approach for Systems with Learned Dynamics [0.0]
そこで本研究では,モンテカルロのドロップアウト手法を学習システムモデルに応用した,サンプリングベースアンサンブルニューラルMPCアルゴリズムを提案する。
この手法は一般に複雑な力学を持つ不確実なシステムを対象としており、第一原理から派生したモデルは推論が難しい。
論文 参考訳(メタデータ) (2024-06-04T17:15:25Z) - Data-driven Nonlinear Model Reduction using Koopman Theory: Integrated
Control Form and NMPC Case Study [56.283944756315066]
そこで本研究では,遅延座標符号化と全状態復号化を組み合わせた汎用モデル構造を提案し,Koopmanモデリングと状態推定を統合した。
ケーススタディでは,本手法が正確な制御モデルを提供し,高純度極低温蒸留塔のリアルタイム非線形予測制御を可能にすることを実証している。
論文 参考訳(メタデータ) (2024-01-09T11:54:54Z) - Data-Driven Model Reduction and Nonlinear Model Predictive Control of an
Air Separation Unit by Applied Koopman Theory [45.84205238554709]
空気分離ユニットの低次制御モデルを生成するためのデータ駆動型削減戦略を提案する。
縮小したクープマンモデルの固定ブロック構造に合わせた微分を用いたNMPC実装を提案する。
調整したNMPC実装による削減手法により、ASUのリアルタイムNMPCを平均CPU時間で98 %削減できる。
論文 参考訳(メタデータ) (2023-09-11T11:18:16Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Stabilizing Machine Learning Prediction of Dynamics: Noise and
Noise-inspired Regularization [58.720142291102135]
近年、機械学習(ML)モデルはカオス力学系の力学を正確に予測するために訓練可能であることが示されている。
緩和技術がなければ、この技術は人工的に迅速にエラーを発生させ、不正確な予測と/または気候不安定をもたらす可能性がある。
トレーニング中にモデル入力に付加される多数の独立雑音実効化の効果を決定論的に近似する正規化手法であるLinearized Multi-Noise Training (LMNT)を導入する。
論文 参考訳(メタデータ) (2022-11-09T23:40:52Z) - Online Dynamics Learning for Predictive Control with an Application to
Aerial Robots [3.673994921516517]
予測モデルは学習し、モデルベースのコントローラに適用することができるが、これらのモデルはしばしばオフラインで学習される。
このオフライン設定では、トレーニングデータをまず収集し、精巧なトレーニング手順により予測モデルを学ぶ。
本稿では,デプロイ中の動的モデルの精度を継続的に向上するオンライン動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-19T15:51:25Z) - Real-time Neural-MPC: Deep Learning Model Predictive Control for
Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。
ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文 参考訳(メタデータ) (2022-03-15T09:38:15Z) - On Training and Evaluation of Neural Network Approaches for Model
Predictive Control [9.8918553325509]
本稿では,制約ニューラルネットワークを用いて実装されたモデル予測制御(MPC)のトレーニングと評価を行うフレームワークである。
モチベーションは、安全クリティカルフィードバック制御システムのリアルタイム最適化を、ニューラルネットワークと最適化層という形で学習されたマッピングに置き換えることである。
論文 参考訳(メタデータ) (2020-05-08T15:37:55Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。