論文の概要: Model-predictive control and reinforcement learning in multi-energy
system case studies
- arxiv url: http://arxiv.org/abs/2104.09785v1
- Date: Tue, 20 Apr 2021 06:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:46:18.642996
- Title: Model-predictive control and reinforcement learning in multi-energy
system case studies
- Title(参考訳): 多エネルギーシステムにおけるモデル予測制御と強化学習
- Authors: Glenn Ceusters, Rom\'an Cant\'u Rodr\'iguez, Alberte Bouso Garc\'ia,
R\"udiger Franke, Geert Deconinck, Lieve Helsen, Ann Now\'e, Maarten
Messagie, Luis Ramirez Camargo
- Abstract要約: 線形モデル予測制御(LMPC)に対するオブジェクト指向・非政治多強化学習(RL)アプローチを提案する。
TD3) RL エージェントは, LMPC ベンチマーク (101.5%) にマッチし, 性能を上回る可能性が示唆された。
より複雑なMESシステム構成では、RLエージェントの性能は一般に低い(94.6%)が、現実のLMPCよりも優れている(88.9%)。
- 参考スコア(独自算出の注目度): 0.2810625954925815
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Model-predictive-control (MPC) offers an optimal control technique to
establish and ensure that the total operation cost of multi-energy systems
remains at a minimum while fulfilling all system constraints. However, this
method presumes an adequate model of the underlying system dynamics, which is
prone to modelling errors and is not necessarily adaptive. This has an
associated initial and ongoing project-specific engineering cost. In this
paper, we present an on- and off-policy multi-objective reinforcement learning
(RL) approach, that does not assume a model a priori, benchmarking this against
a linear MPC (LMPC - to reflect current practice, though non-linear MPC
performs better) - both derived from the general optimal control problem,
highlighting their differences and similarities. In a simple multi-energy
system (MES) configuration case study, we show that a twin delayed deep
deterministic policy gradient (TD3) RL agent offers potential to match and
outperform the perfect foresight LMPC benchmark (101.5%). This while the
realistic LMPC, i.e. imperfect predictions, only achieves 98%. While in a more
complex MES system configuration, the RL agent's performance is generally lower
(94.6%), yet still better than the realistic LMPC (88.9%). In both case
studies, the RL agents outperformed the realistic LMPC after a training period
of 2 years using quarterly interactions with the environment. We conclude that
reinforcement learning is a viable optimal control technique for multi-energy
systems given adequate constraint handling and pre-training, to avoid unsafe
interactions and long training periods, as is proposed in fundamental future
work.
- Abstract(参考訳): モデル予測制御(MPC)は、システム制約をすべて満たしつつ、マルチエネルギーシステムの全体の運用コストを最小限に抑えるための最適制御技術を提供する。
しかし,本手法では,誤差のモデル化が困難であり,必ずしも適応性がないシステム力学の適切なモデルを想定している。
これはプロジェクト固有のエンジニアリングコストと関連するものだ。
本稿では, 線形MPC (LMPC) に対して, 線形MPC (LMPC) をベンチマークすることで, 線形MPC (LMPC) の精度が向上するが, 一般の最適制御問題から導出し, 相違点と類似点を明らかにすることを目的とした, オンライン・オフ・オフ・オブジェクティブ強化学習 (RL) アプローチを提案する。
単純なマルチエネルギーシステム (MES) の構成ケーススタディでは、双子の遅延した深層決定性ポリシー勾配 (TD3) RL エージェントが完全なLMPCベンチマーク (101.5%) に適合し、性能を向上する可能性を示している。
これは現実的なLMPCである。
不完全予測は98%に過ぎません
より複雑なmesシステム構成では、rlエージェントの性能は一般的に低い(94.6%)が、現実的なlmpc(88.9%)よりも優れている。
いずれの場合も、RLエージェントは、環境との四半期的相互作用を用いて2年間のトレーニング期間を経て、現実的なLMPCよりも優れていた。
強化学習は,本研究で提案されているような安全でない相互作用や長い訓練期間を避けるために,制約処理や事前学習を前提とした多エネルギーシステムの最適制御手法である。
関連論文リスト
- Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Blending MPC & Value Function Approximation for Efficient Reinforcement
Learning [42.429730406277315]
モデル予測制御(MPC)は、複雑な実世界のシステムを制御する強力なツールである。
モデルフリー強化学習(RL)によるMPC改善のためのフレームワークを提案する。
我々は,本手法がmpcに匹敵する性能と真のダイナミクスを両立できることを示す。
論文 参考訳(メタデータ) (2020-12-10T11:32:01Z) - ABC-LMPC: Safe Sample-Based Learning MPC for Stochastic Nonlinear
Dynamical Systems with Adjustable Boundary Conditions [34.44010424789202]
本稿では,新しいLMPCアルゴリズムであるadjustable boundary LMPC(ABC-LMPC)を提案する。
提案手法は,3つの連続制御タスクの初期および終端条件に適応できることを実験的に実証する。
論文 参考訳(メタデータ) (2020-03-03T09:48:22Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。