論文の概要: Integrating Reinforcement Learning and Model Predictive Control with Applications to Microgrids
- arxiv url: http://arxiv.org/abs/2409.11267v1
- Date: Tue, 17 Sep 2024 15:17:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 16:13:33.973652
- Title: Integrating Reinforcement Learning and Model Predictive Control with Applications to Microgrids
- Title(参考訳): 強化学習とモデル予測制御の統合とマイクログリッドへの応用
- Authors: Caio Fabio Oliveira da Silva, Azita Dabiri, Bart De Schutter,
- Abstract要約: 本研究では,強化学習とモデル予測制御(MPC)を統合し,混合力学系における最適制御問題の解法を提案する。
提案手法は, MPC手法のオンライン計算時間を著しく短縮し, 最適性ギャップが小さく, 実現可能性が高いポリシーを生成する。
- 参考スコア(独自算出の注目度): 14.389086937116582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes an approach that integrates reinforcement learning and model predictive control (MPC) to efficiently solve finite-horizon optimal control problems in mixed-logical dynamical systems. Optimization-based control of such systems with discrete and continuous decision variables entails the online solution of mixed-integer quadratic or linear programs, which suffer from the curse of dimensionality. Our approach aims at mitigating this issue by effectively decoupling the decision on the discrete variables and the decision on the continuous variables. Moreover, to mitigate the combinatorial growth in the number of possible actions due to the prediction horizon, we conceive the definition of decoupled Q-functions to make the learning problem more tractable. The use of reinforcement learning reduces the online optimization problem of the MPC controller from a mixed-integer linear (quadratic) program to a linear (quadratic) program, greatly reducing the computational time. Simulation experiments for a microgrid, based on real-world data, demonstrate that the proposed method significantly reduces the online computation time of the MPC approach and that it generates policies with small optimality gaps and high feasibility rates.
- Abstract(参考訳): 本研究では、強化学習とモデル予測制御(MPC)を統合し、混合力学系における有限水平最適制御問題を効率的に解くアプローチを提案する。
離散的かつ連続的な決定変数を持つシステムの最適化に基づく制御は、次元性の呪いに苦しむ混合整数二次プログラムや線形プログラムのオンライン解を必要とする。
本研究の目的は,離散変数の決定と連続変数の決定を効果的に分離することでこの問題を軽減することである。
さらに,予測の地平線による可能性行動数の組合せ的増加を緩和するために,分離Q関数の定義を考案し,学習問題をより難易度の高いものにする。
強化学習を用いることで、MPCコントローラのオンライン最適化問題を、混合整数線形(四進数)プログラムから線形(四進数)プログラムに還元し、計算時間を劇的に短縮する。
実世界のデータを基にしたマイクログリッドのシミュレーション実験により,提案手法はMPC手法のオンライン計算時間を著しく短縮し,最適性ギャップが小さく,実現可能性の高いポリシーを生成することを示した。
関連論文リスト
- Predictive Lagrangian Optimization for Constrained Reinforcement Learning [15.082498910832529]
制約付き最適化は、複雑な制御タスクに対処するための強化学習で一般的に見られる。
本稿では,制約付き最適化とフィードバック制御システムとの接続を構築するための,より汎用的な等価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-25T13:39:45Z) - Towards An Unsupervised Learning Scheme for Efficiently Solving Parameterized Mixed-Integer Programs [6.1860817947800655]
教師なし学習方式でバイナリ変数の自動エンコーダを訓練する。
オフライン学習AEのデコーダパラメータから平面制約を切断するクラスを構築する戦略を提案する。
原始的なMIP問題への統合は、実現可能な領域を縮小したMIPの強化につながる。
論文 参考訳(メタデータ) (2024-12-23T14:48:32Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Efficient model predictive control for nonlinear systems modelled by deep neural networks [6.5268245109828005]
本稿では、非線形性と不確実性が深層ニューラルネットワーク(NN)によってモデル化された動的システムのためのモデル予測制御(MPC)を提案する。
NN出力はシステム状態と制御入力の高次複素非線形性を含むため、MPC問題は非線形であり、リアルタイム制御では解決が難しい。
論文 参考訳(メタデータ) (2024-05-16T18:05:18Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control
Approach [0.3093890460224435]
我々は、新しい強化学習手法を用いて、人気のあるWordleパズルの解法に対処する。
Wordleパズルでは、比較的控えめな計算コストで最適に近いオンラインソリューション戦略が得られる。
論文 参考訳(メタデータ) (2022-11-15T03:46:41Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Neural Predictive Control for the Optimization of Smart Grid Flexibility
Schedules [0.0]
モデル予測制御(MPC)は,格子フレキシビリティの最適スケジューリング問題を数学的に定式化する手法である。
MPC法は時間制約グリッド最適化の正確な結果を約束するが、大規模で複雑な電力系統モデルに必要な計算時間によって本質的に制限される。
線形及び非線形電力系統の最適制御ポリシーを模倣により学習するニューラルネットワーク予測制御方式を提案する。
論文 参考訳(メタデータ) (2021-08-19T15:12:35Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。