Fugu-MT 論文翻訳(概要): Integrating Reinforcement Learning and Model Predictive Control with Applications to Microgrids

論文の概要: Integrating Reinforcement Learning and Model Predictive Control with Applications to Microgrids

arxiv url: http://arxiv.org/abs/2409.11267v2
Date: Mon, 14 Apr 2025 09:44:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 12:44:50.475181
Title: Integrating Reinforcement Learning and Model Predictive Control with Applications to Microgrids
Title（参考訳）: 強化学習とモデル予測制御の統合とマイクログリッドへの応用
Authors: Caio Fabio Oliveira da Silva, Azita Dabiri, Bart De Schutter,
Abstract要約: 本研究は,有限水平最適制御問題を効率的に解くために,強化学習とモデル予測制御(MPC)を統合するアプローチを提案する。我々のアプローチは、離散変数の決定を連続変数の決定から切り離すことによってこの問題を軽減することを目的としている。提案手法では,MPC制御器のオンライン問題を混合整数線形プログラムから線形プログラムへ簡易化する。
参考スコア（独自算出の注目度）: 14.389086937116582
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work proposes an approach that integrates reinforcement learning and model predictive control (MPC) to solve finite-horizon optimal control problems in mixed-logical dynamical systems efficiently. Optimization-based control of such systems with discrete and continuous decision variables entails the online solution of mixed-integer linear programs, which suffer from the curse of dimensionality. Our approach aims to mitigate this issue by decoupling the decision on the discrete variables from the decision on the continuous variables. In the proposed approach, reinforcement learning determines the discrete decision variables and simplifies the online optimization problem of the MPC controller from a mixed-integer linear program to a linear program, significantly reducing the computational time. A fundamental contribution of this work is the definition of the decoupled Q-function, which plays a crucial role in making the learning problem tractable in a combinatorial action space. We motivate the use of recurrent neural networks to approximate the decoupled Q-function and show how they can be employed in a reinforcement learning setting. Simulation experiments on a microgrid system using real-world data demonstrate that the proposed method substantially reduces the online computation time of MPC while maintaining high feasibility and low suboptimality.
Abstract（参考訳）: 本研究では,混合力学系における有限水平最適制御問題を効率的に解くために,強化学習とモデル予測制御(MPC)を統合するアプローチを提案する。離散的かつ連続的な決定変数を持つシステムの最適化に基づく制御は、次元の呪いに苦しむ混合整数線形プログラムのオンライン解を必要とする。我々のアプローチは、離散変数の決定を連続変数の決定から切り離すことによってこの問題を軽減することを目的としている。提案手法では,MPCコントローラのオンライン最適化問題を混合整数線形プログラムから線形プログラムへ簡易化し,計算時間を著しく短縮する。この研究の基本的な貢献は疎結合Q-関数の定義であり、これは組合せ的行動空間において学習問題を学習可能とする上で重要な役割を担っている。我々は、分離されたQ-関数を近似するために、リカレントニューラルネットワークの使用を動機付け、強化学習環境でどのように使用できるかを示す。実世界のデータを用いたマイクログリッドシステムのシミュレーション実験により,提案手法はMPCのオンライン計算時間を大幅に短縮し,高い実現可能性と低い準最適性を維持できることを示した。

関連論文リスト

A Guaranteed-Stable Neural Network Approach for Optimal Control of Nonlinear Systems [3.5000297213981653]
非線形システムの最適制御に対する有望なアプローチは、システムを反復線形化し、最適制御入力を決定するために各タイミングで最適化問題を解くことである。このアプローチはオンライン最適化に依存するため、計算コストがかかるため、限られた計算資源を持つシステムでは非現実的である。この問題の潜在的な解決策の1つは、ニューラルネットワーク(NN)を制御ループに組み込むことである。
論文参考訳（メタデータ） (2025-01-28T22:55:47Z)
Towards An Unsupervised Learning Scheme for Efficiently Solving Parameterized Mixed-Integer Programs [6.1860817947800655]
教師なし学習方式でバイナリ変数の自動エンコーダを訓練する。オフライン学習AEのデコーダパラメータから平面制約を切断するクラスを構築する戦略を提案する。原始的なMIP問題への統合は、実現可能な領域を縮小したMIPの強化につながる。
論文参考訳（メタデータ） (2024-12-23T14:48:32Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
Efficient model predictive control for nonlinear systems modelled by deep neural networks [6.5268245109828005]
本稿では、非線形性と不確実性が深層ニューラルネットワーク(NN)によってモデル化された動的システムのためのモデル予測制御(MPC)を提案する。 NN出力はシステム状態と制御入力の高次複素非線形性を含むため、MPC問題は非線形であり、リアルタイム制御では解決が難しい。
論文参考訳（メタデータ） (2024-05-16T18:05:18Z)
Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文参考訳（メタデータ） (2024-04-08T20:02:19Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control Approach [0.3093890460224435]
我々は、新しい強化学習手法を用いて、人気のあるWordleパズルの解法に対処する。 Wordleパズルでは、比較的控えめな計算コストで最適に近いオンラインソリューション戦略が得られる。
論文参考訳（メタデータ） (2022-11-15T03:46:41Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文参考訳（メタデータ） (2022-06-01T23:26:51Z)
Accelerating Federated Edge Learning via Topology Optimization [41.830942005165625]
フェデレートエッジラーニング(FEEL)は、プライバシー保護の分散ラーニングを実現するための有望なパラダイムとして考えられている。ストラグラー装置の存在により、過度の学習時間を消費する。フェデレーション学習における不均一性問題に対処するために,新しいトポロジ最適化フェデレーション・エッジ・ラーニング(TOFEL)手法を提案する。
論文参考訳（メタデータ） (2022-04-01T14:49:55Z)
Neural Predictive Control for the Optimization of Smart Grid Flexibility Schedules [0.0]
モデル予測制御(MPC)は,格子フレキシビリティの最適スケジューリング問題を数学的に定式化する手法である。 MPC法は時間制約グリッド最適化の正確な結果を約束するが、大規模で複雑な電力系統モデルに必要な計算時間によって本質的に制限される。線形及び非線形電力系統の最適制御ポリシーを模倣により学習するニューラルネットワーク予測制御方式を提案する。
論文参考訳（メタデータ） (2021-08-19T15:12:35Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文参考訳（メタデータ） (2021-03-01T22:55:48Z)
Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-07T09:45:15Z)
Average Cost Optimal Control of Stochastic Systems Using Reinforcement Learning [0.19036571490366497]
本稿では,Q関数のカーネル行列を推定するオンライン学習手法を提案する。得られた制御ゲインとカーネルマトリックスは最適に収束することが証明された。
論文参考訳（メタデータ） (2020-10-13T08:51:06Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。