論文の概要: A Reinforcement Learning-based Economic Model Predictive Control
Framework for Autonomous Operation of Chemical Reactors
- arxiv url: http://arxiv.org/abs/2105.02656v1
- Date: Thu, 6 May 2021 13:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 12:07:20.860465
- Title: A Reinforcement Learning-based Economic Model Predictive Control
Framework for Autonomous Operation of Chemical Reactors
- Title(参考訳): 化学反応器の自律運転のための強化学習型経済モデル予測制御フレームワーク
- Authors: Khalid Alhazmi, Fahad Albalawi, and S. Mani Sarathy
- Abstract要約: 本研究では,非線形系のオンラインモデルパラメータ推定のためのEMPCとRLを統合するための新しいフレームワークを提案する。
最先端のRLアルゴリズムとEMPCスキームを最小限の修正で使用できます。
- 参考スコア(独自算出の注目度): 0.5735035463793008
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Economic model predictive control (EMPC) is a promising methodology for
optimal operation of dynamical processes that has been shown to improve process
economics considerably. However, EMPC performance relies heavily on the
accuracy of the process model used. As an alternative to model-based control
strategies, reinforcement learning (RL) has been investigated as a model-free
control methodology, but issues regarding its safety and stability remain an
open research challenge. This work presents a novel framework for integrating
EMPC and RL for online model parameter estimation of a class of nonlinear
systems. In this framework, EMPC optimally operates the closed loop system
while maintaining closed loop stability and recursive feasibility. At the same
time, to optimize the process, the RL agent continuously compares the measured
state of the process with the model's predictions (nominal states), and
modifies model parameters accordingly. The major advantage of this framework is
its simplicity; state-of-the-art RL algorithms and EMPC schemes can be employed
with minimal modifications. The performance of the proposed framework is
illustrated on a network of reactions with challenging dynamics and practical
significance. This framework allows control, optimization, and model correction
to be performed online and continuously, making autonomous reactor operation
more attainable.
- Abstract(参考訳): 経済モデル予測制御(Economic Model predictive Control, EMPC)は, 動的プロセスの最適運用のための有望な方法論である。
しかし,EMPCの性能はプロセスモデルの精度に大きく依存している。
モデルベース制御戦略の代替として、強化学習(RL)はモデルフリー制御手法として研究されてきたが、その安全性と安定性に関する問題は依然としてオープンな研究課題である。
本稿では,非線形システムのオンラインモデルパラメータ推定のためのempcとrlを統合するための新しい枠組みを提案する。
この枠組みでは、empcは閉ループ安定性と再帰可能性を維持しつつ閉ループシステムを最適に動作させる。
同時に、プロセスの最適化のために、RLエージェントはプロセスの測定状態とモデルの予測(最小状態)を連続的に比較し、それに応じてモデルパラメータを修正します。
最先端のRLアルゴリズムとEMPCスキームは最小限の変更で利用できる。
提案手法の性能は, 動的に挑戦し, 実用的意義を持つ反応ネットワーク上で示される。
このフレームワークは、制御、最適化、モデル修正をオンラインで連続的に行うことができ、自律型原子炉の動作をより達成できる。
関連論文リスト
- Task-optimal data-driven surrogate models for eNMPC via differentiable simulation and optimization [42.72938925647165]
特定の制御タスクにおいて最適な性能を示すために,クープマンシュロゲートモデルのエンドツーエンド学習法を提案する。
我々は,政策最適化を支援するために,力学シミュレーションモデルに基づく環境の潜在的な微分可能性を利用する訓練アルゴリズムを用いる。
論文 参考訳(メタデータ) (2024-03-21T14:28:43Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Online Policy Optimization for Robust MDP [17.995448897675068]
強化学習(Reinforcement Learning, RL)は、ビデオゲームやGoなど多くの合成環境において、人間のパフォーマンスを上回っている。
本研究では、未知の名義システムと対話することで、オンラインロバストなマルコフ決定プロセス(MDP)を検討する。
提案手法は,確率的に効率的であるロバストな楽観的ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-28T05:18:20Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Uncertainty-Aware Model-Based Reinforcement Learning with Application to
Autonomous Driving [2.3303341607459687]
本稿では,新しい不確実性を考慮したモデルに基づく強化学習フレームワークを提案する。
このフレームワークは適応的トランケーションアプローチに基づいて開発され、エージェントと環境モデルの間の仮想相互作用を提供する。
開発したアルゴリズムは、エンド・ツー・エンドの自動運転車制御タスクで実装され、様々な運転シナリオにおける最先端の手法と比較される。
論文 参考訳(メタデータ) (2021-06-23T06:55:14Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。