論文の概要: Integrating Reinforcement Learning and Model Predictive Control with Applications to Microgrids
- arxiv url: http://arxiv.org/abs/2409.11267v1
- Date: Tue, 17 Sep 2024 15:17:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 16:13:33.973652
- Title: Integrating Reinforcement Learning and Model Predictive Control with Applications to Microgrids
- Title(参考訳): 強化学習とモデル予測制御の統合とマイクログリッドへの応用
- Authors: Caio Fabio Oliveira da Silva, Azita Dabiri, Bart De Schutter,
- Abstract要約: 本研究では,強化学習とモデル予測制御(MPC)を統合し,混合力学系における最適制御問題の解法を提案する。
提案手法は, MPC手法のオンライン計算時間を著しく短縮し, 最適性ギャップが小さく, 実現可能性が高いポリシーを生成する。
- 参考スコア(独自算出の注目度): 14.389086937116582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes an approach that integrates reinforcement learning and model predictive control (MPC) to efficiently solve finite-horizon optimal control problems in mixed-logical dynamical systems. Optimization-based control of such systems with discrete and continuous decision variables entails the online solution of mixed-integer quadratic or linear programs, which suffer from the curse of dimensionality. Our approach aims at mitigating this issue by effectively decoupling the decision on the discrete variables and the decision on the continuous variables. Moreover, to mitigate the combinatorial growth in the number of possible actions due to the prediction horizon, we conceive the definition of decoupled Q-functions to make the learning problem more tractable. The use of reinforcement learning reduces the online optimization problem of the MPC controller from a mixed-integer linear (quadratic) program to a linear (quadratic) program, greatly reducing the computational time. Simulation experiments for a microgrid, based on real-world data, demonstrate that the proposed method significantly reduces the online computation time of the MPC approach and that it generates policies with small optimality gaps and high feasibility rates.
- Abstract(参考訳): 本研究では、強化学習とモデル予測制御(MPC)を統合し、混合力学系における有限水平最適制御問題を効率的に解くアプローチを提案する。
離散的かつ連続的な決定変数を持つシステムの最適化に基づく制御は、次元性の呪いに苦しむ混合整数二次プログラムや線形プログラムのオンライン解を必要とする。
本研究の目的は,離散変数の決定と連続変数の決定を効果的に分離することでこの問題を軽減することである。
さらに,予測の地平線による可能性行動数の組合せ的増加を緩和するために,分離Q関数の定義を考案し,学習問題をより難易度の高いものにする。
強化学習を用いることで、MPCコントローラのオンライン最適化問題を、混合整数線形(四進数)プログラムから線形(四進数)プログラムに還元し、計算時間を劇的に短縮する。
実世界のデータを基にしたマイクログリッドのシミュレーション実験により,提案手法はMPC手法のオンライン計算時間を著しく短縮し,最適性ギャップが小さく,実現可能性の高いポリシーを生成することを示した。
関連論文リスト
- Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Efficient model predictive control for nonlinear systems modelled by deep neural networks [6.5268245109828005]
本稿では、非線形性と不確実性が深層ニューラルネットワーク(NN)によってモデル化された動的システムのためのモデル予測制御(MPC)を提案する。
NN出力はシステム状態と制御入力の高次複素非線形性を含むため、MPC問題は非線形であり、リアルタイム制御では解決が難しい。
論文 参考訳(メタデータ) (2024-05-16T18:05:18Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control
Approach [0.3093890460224435]
我々は、新しい強化学習手法を用いて、人気のあるWordleパズルの解法に対処する。
Wordleパズルでは、比較的控えめな計算コストで最適に近いオンラインソリューション戦略が得られる。
論文 参考訳(メタデータ) (2022-11-15T03:46:41Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Accelerating Federated Edge Learning via Topology Optimization [41.830942005165625]
フェデレートエッジラーニング(FEEL)は、プライバシー保護の分散ラーニングを実現するための有望なパラダイムとして考えられている。
ストラグラー装置の存在により、過度の学習時間を消費する。
フェデレーション学習における不均一性問題に対処するために,新しいトポロジ最適化フェデレーション・エッジ・ラーニング(TOFEL)手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T14:49:55Z) - Neural Predictive Control for the Optimization of Smart Grid Flexibility
Schedules [0.0]
モデル予測制御(MPC)は,格子フレキシビリティの最適スケジューリング問題を数学的に定式化する手法である。
MPC法は時間制約グリッド最適化の正確な結果を約束するが、大規模で複雑な電力系統モデルに必要な計算時間によって本質的に制限される。
線形及び非線形電力系統の最適制御ポリシーを模倣により学習するニューラルネットワーク予測制御方式を提案する。
論文 参考訳(メタデータ) (2021-08-19T15:12:35Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。