Fugu-MT 論文翻訳(概要): End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control

論文の概要: End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control

arxiv url: http://arxiv.org/abs/2308.01674v4
Date: Thu, 1 Aug 2024 17:41:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-02 14:55:39.187030
Title: End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control
Title（参考訳）: 経済非線形モデル予測制御のためのクープマンモデルのエンドツーエンド強化学習
Authors: Daniel Mayfrank, Alexander Mitsos, Manuel Dahmen,
Abstract要約: 本研究では, (e)NMPCの一部として最適性能を示すために, Koopman シュロゲートモデルの強化学習法を提案する。エンドツーエンドトレーニングモデルは,(e)NMPCにおけるシステム識別を用いてトレーニングしたモデルよりも優れていることを示す。
参考スコア（独自算出の注目度）: 45.84205238554709
License: http://creativecommons.org/licenses/by/4.0/
Abstract: (Economic) nonlinear model predictive control ((e)NMPC) requires dynamic models that are sufficiently accurate and computationally tractable. Data-driven surrogate models for mechanistic models can reduce the computational burden of (e)NMPC; however, such models are typically trained by system identification for maximum prediction accuracy on simulation samples and perform suboptimally in (e)NMPC. We present a method for end-to-end reinforcement learning of Koopman surrogate models for optimal performance as part of (e)NMPC. We apply our method to two applications derived from an established nonlinear continuous stirred-tank reactor model. The controller performance is compared to that of (e)NMPCs utilizing models trained using system identification, and model-free neural network controllers trained using reinforcement learning. We show that the end-to-end trained models outperform those trained using system identification in (e)NMPC, and that, in contrast to the neural network controllers, the (e)NMPC controllers can react to changes in the control setting without retraining.
Abstract（参考訳）: (経済)非線形モデル予測制御((e)NMPC)は、十分に正確で計算的に計算可能な動的モデルを必要とする。メカニスティックモデルのためのデータ駆動サロゲートモデルは、(e)NMPCの計算負担を軽減することができるが、そのようなモデルは典型的には、シミュレーションサンプル上で最大予測精度のシステム識別によって訓練され、(e)NMPCで亜最適に実行される。 In this method for end-to-end reinforcement learning of Koopman surrogate model for optimal performance as (e)NMPC。提案手法を, 確立された非線形連続拌槽型反応器モデルから導出した2つの応用に適用する。制御性能は,システム識別を用いて訓練されたモデルを用いた(e)NMPCと,強化学習を用いて訓練されたモデルフリーニューラルネットワークコントローラとを比較した。我々は,(e)NMPCにおけるシステム識別を用いて訓練したモデルよりもエンドツーエンドのトレーニングモデルの方が優れており,(e)NMPCコントローラは,(e)NMPCコントローラとは対照的に,リトレーニングなしで制御設定の変化に反応できることを示した。

関連論文リスト

Sample-Efficient Reinforcement Learning of Koopman eNMPC [42.72938925647165]
強化学習は、データ駆動(経済)非線形モデル予測コントローラ((e)NMPC)を、特定の制御タスクにおける最適な性能に調整するために使用することができる。モデルに基づくRLアルゴリズムと、Koopman (e)NMPCを自動微分可能なポリシーに変換する方法を組み合わせる。
論文参考訳（メタデータ） (2025-03-24T15:35:16Z)
Dropout MPC: An Ensemble Neural MPC Approach for Systems with Learned Dynamics [0.0]
そこで本研究では,モンテカルロのドロップアウト手法を学習システムモデルに応用した,サンプリングベースアンサンブルニューラルMPCアルゴリズムを提案する。この手法は一般に複雑な力学を持つ不確実なシステムを対象としており、第一原理から派生したモデルは推論が難しい。
論文参考訳（メタデータ） (2024-06-04T17:15:25Z)
Data-driven Nonlinear Model Reduction using Koopman Theory: Integrated Control Form and NMPC Case Study [56.283944756315066]
そこで本研究では,遅延座標符号化と全状態復号化を組み合わせた汎用モデル構造を提案し,Koopmanモデリングと状態推定を統合した。ケーススタディでは,本手法が正確な制御モデルを提供し,高純度極低温蒸留塔のリアルタイム非線形予測制御を可能にすることを実証している。
論文参考訳（メタデータ） (2024-01-09T11:54:54Z)
Data-Driven Model Reduction and Nonlinear Model Predictive Control of an Air Separation Unit by Applied Koopman Theory [45.84205238554709]
空気分離ユニットの低次制御モデルを生成するためのデータ駆動型削減戦略を提案する。縮小したクープマンモデルの固定ブロック構造に合わせた微分を用いたNMPC実装を提案する。調整したNMPC実装による削減手法により、ASUのリアルタイムNMPCを平均CPU時間で98 %削減できる。
論文参考訳（メタデータ） (2023-09-11T11:18:16Z)
Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文参考訳（メタデータ） (2023-02-08T07:37:51Z)
Stabilizing Machine Learning Prediction of Dynamics: Noise and Noise-inspired Regularization [58.720142291102135]
近年、機械学習(ML)モデルはカオス力学系の力学を正確に予測するために訓練可能であることが示されている。緩和技術がなければ、この技術は人工的に迅速にエラーを発生させ、不正確な予測と/または気候不安定をもたらす可能性がある。トレーニング中にモデル入力に付加される多数の独立雑音実効化の効果を決定論的に近似する正規化手法であるLinearized Multi-Noise Training (LMNT)を導入する。
論文参考訳（メタデータ） (2022-11-09T23:40:52Z)
Online Dynamics Learning for Predictive Control with an Application to Aerial Robots [3.673994921516517]
予測モデルは学習し、モデルベースのコントローラに適用することができるが、これらのモデルはしばしばオフラインで学習される。このオフライン設定では、トレーニングデータをまず収集し、精巧なトレーニング手順により予測モデルを学ぶ。本稿では,デプロイ中の動的モデルの精度を継続的に向上するオンライン動的学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-07-19T15:51:25Z)
Real-time Neural-MPC: Deep Learning Model Predictive Control for Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文参考訳（メタデータ） (2022-03-15T09:38:15Z)
On Training and Evaluation of Neural Network Approaches for Model Predictive Control [9.8918553325509]
本稿では,制約ニューラルネットワークを用いて実装されたモデル予測制御(MPC)のトレーニングと評価を行うフレームワークである。モチベーションは、安全クリティカルフィードバック制御システムのリアルタイム最適化を、ニューラルネットワークと最適化層という形で学習されたマッピングに置き換えることである。
論文参考訳（メタデータ） (2020-05-08T15:37:55Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。