論文の概要: A Comparison of Model-Free and Model Predictive Control for Price
Responsive Water Heaters
- arxiv url: http://arxiv.org/abs/2111.04689v1
- Date: Mon, 8 Nov 2021 18:06:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 17:23:42.422674
- Title: A Comparison of Model-Free and Model Predictive Control for Price
Responsive Water Heaters
- Title(参考訳): 価格応答型給湯機におけるモデルフリーとモデル予測制御の比較
- Authors: David J. Biagioni, Xiangyu Zhang, Peter Graf, Devon Sigler, Wesley
Jones
- Abstract要約: 本稿では,2つのモデルフリー制御アルゴリズムの比較,および回帰水平モデル予測制御(MPC)について述べる。
MPCの4つのバリエーションは、完璧な予測を行うワンショットコントローラ、完全な予測を行う限定水平コントローラ、歴史的なシナリオを使用する2段階のプログラミングコントローラである。
ESとPPOは、平均予測と2段階のMPCコントローラを平均コストで上回り、計算動作において2桁以上高速である、優れた汎用ポリシーを学習している。
- 参考スコア(独自算出の注目度): 7.579687492224987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a careful comparison of two model-free control algorithms,
Evolution Strategies (ES) and Proximal Policy Optimization (PPO), with receding
horizon model predictive control (MPC) for operating simulated, price
responsive water heaters. Four MPC variants are considered: a one-shot
controller with perfect forecasting yielding optimal control; a limited-horizon
controller with perfect forecasting; a mean forecasting-based controller; and a
two-stage stochastic programming controller using historical scenarios. In all
cases, the MPC model for water temperature and electricity price are exact;
only water demand is uncertain. For comparison, both ES and PPO learn neural
network-based policies by directly interacting with the simulated environment
under the same scenarios used by MPC. All methods are then evaluated on a
separate one-week continuation of the demand time series. We demonstrate that
optimal control for this problem is challenging, requiring more than 8-hour
lookahead for MPC with perfect forecasting to attain the minimum cost. Despite
this challenge, both ES and PPO learn good general purpose policies that
outperform mean forecast and two-stage stochastic MPC controllers in terms of
average cost and are more than two orders of magnitude faster at computing
actions. We show that ES in particular can leverage parallelism to learn a
policy in under 90 seconds using 1150 CPU cores.
- Abstract(参考訳): 本稿では,モデルフリー制御アルゴリズムである進化戦略 (es) と近方政策最適化 (ppo) と,模擬価格対応型給湯器を運用するreceding horizon model prediction control (mpc) の比較を行った。
MPCの4つの変種は、完全予測可能なワンショット制御器、完全予測可能な限定水平制御器、平均予測ベースの制御器、歴史的シナリオを用いた2段階確率的プログラミング制御器である。
いずれの場合も、水温と電力価格のmpcモデルは正確であり、水需要のみが不確かである。
比較のために、ESとPPOは、MPCが使用しているのと同じシナリオでシミュレーション環境と直接対話することで、ニューラルネットワークベースのポリシーを学ぶ。
すべてのメソッドは、要求時系列の別々の1週間の継続で評価される。
この問題に対する最適制御は困難であり,最小コストを達成するためには,mpcの8時間以上のルックアヘッドが必要となる。
この課題にもかかわらず、esとppoは平均的な予測と2段階の確率的mpcコントローラを平均コストで上回る優れた汎用ポリシーを学習し、計算アクションにおいて2桁以上高速である。
特にESは並列性を利用して,1150個のCPUコアを使用して90秒未満でポリシーを学習できることを示す。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - Learning Model Predictive Control Parameters via Bayesian Optimization for Battery Fast Charging [0.0]
モデル予測制御(MPC)のチューニングパラメータは、特に制御器の予測と閉ループプラントの挙動に顕著な相違がある場合、重要な課題を示す。
本研究では,バッテリ高速充電の閉ループ性能向上を目的とした,未知のモデルパラメータとパラメータ化された制約バックオフ項の効率的な学習にベイズ最適化を適用した。
論文 参考訳(メタデータ) (2024-04-09T08:49:41Z) - Attention-Based Ensemble Pooling for Time Series Forecasting [55.2480439325792]
本稿では,候補モデル予測よりも重み付き平均値を実行するプーリング法を提案する。
本手法は,非定常ロレンツ63方程式の動力学の多段階予測と,COVID-19による週次死亡事故の1段階予測という2つの時系列予測問題に対して試行する。
論文 参考訳(メタデータ) (2023-10-24T22:59:56Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - A Hybrid Model for Forecasting Short-Term Electricity Demand [59.372588316558826]
現在、英国電気市場は、規制当局が30分毎に発行する負荷(需要)予測によってガイドされている。
本稿では,機能工学(候補予測機能の選択),移動ウィンドウ予測,LSTMエンコーダデコーダを組み合わせたハイブリッド予測モデルHYENAを提案する。
論文 参考訳(メタデータ) (2022-05-20T22:13:25Z) - Predictive Accuracy of a Hybrid Generalized Long Memory Model for Short
Term Electricity Price Forecasting [0.0]
本研究では、一般化長メモリ自己回帰モデル(k-factor GARMA)に基づく新しいハイブリッドモデルの予測性能について検討する。
提案モデルの性能を北プール電力市場のデータを用いて評価した。
論文 参考訳(メタデータ) (2022-04-18T12:21:25Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Model-predictive control and reinforcement learning in multi-energy
system case studies [0.2810625954925815]
線形モデル予測制御(LMPC)に対するオブジェクト指向・非政治多強化学習(RL)アプローチを提案する。
TD3) RL エージェントは, LMPC ベンチマーク (101.5%) にマッチし, 性能を上回る可能性が示唆された。
より複雑なMESシステム構成では、RLエージェントの性能は一般に低い(94.6%)が、現実のLMPCよりも優れている(88.9%)。
論文 参考訳(メタデータ) (2021-04-20T06:51:50Z) - Blending MPC & Value Function Approximation for Efficient Reinforcement
Learning [42.429730406277315]
モデル予測制御(MPC)は、複雑な実世界のシステムを制御する強力なツールである。
モデルフリー強化学習(RL)によるMPC改善のためのフレームワークを提案する。
我々は,本手法がmpcに匹敵する性能と真のダイナミクスを両立できることを示す。
論文 参考訳(メタデータ) (2020-12-10T11:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。