論文の概要: Optimized cost function for demand response coordination of multiple EV
charging stations using reinforcement learning
- arxiv url: http://arxiv.org/abs/2203.01654v1
- Date: Thu, 3 Mar 2022 11:22:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-05 01:25:22.110323
- Title: Optimized cost function for demand response coordination of multiple EV
charging stations using reinforcement learning
- Title(参考訳): 強化学習を用いた複数EV充電ステーションの需要応答調整のための最適化コスト関数
- Authors: Manu Lahariya, Nasrin Sadeghianpourhamami and Chris Develder
- Abstract要約: 我々は、複数の充電ステーションを同時に調整するマルコフ決定プロセス(MDP)に基づいて、RLに関する以前の研究に基づいて構築する。
我々は、基本的に、学習した制御ポリシーに対して、柔軟性を提供しない充電需要を常に満たすよう強制するコスト関数の改善を提案する。
提案したバッチRLのQ-iteration実装を,実世界のデータを用いて,オリジナル(コスト)のQ-iteration実装と厳密に比較する。
- 参考スコア(独自算出の注目度): 6.37470346908743
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Electric vehicle (EV) charging stations represent a substantial load with
significant flexibility. The exploitation of that flexibility in demand
response (DR) algorithms becomes increasingly important to manage and balance
demand and supply in power grids. Model-free DR based on reinforcement learning
(RL) is an attractive approach to balance such EV charging load. We build on
previous research on RL, based on a Markov decision process (MDP) to
simultaneously coordinate multiple charging stations. However, we note that the
computationally expensive cost function adopted in the previous research leads
to large training times, which limits the feasibility and practicality of the
approach. We, therefore, propose an improved cost function that essentially
forces the learned control policy to always fulfill any charging demand that
does not offer any flexibility. We rigorously compare the newly proposed batch
RL fitted Q-iteration implementation with the original (costly) one, using
real-world data. Specifically, for the case of load flattening, we compare the
two approaches in terms of (i) the processing time to learn the RL-based
charging policy, as well as (ii) the overall performance of the policy
decisions in terms of meeting the target load for unseen test data. The
performance is analyzed for different training periods and varying training
sample sizes. In addition to both RL policies performance results, we provide
performance bounds in terms of both (i) an optimal all-knowing strategy, and
(ii) a simple heuristic spreading individual EV charging uniformly over time
- Abstract(参考訳): 電気自動車(EV)充電ステーションは、かなりの柔軟性を持つかなりの負荷を表す。
需要応答(DR)アルゴリズムの柔軟性の活用は、電力グリッドの需要と供給を管理しバランスをとるためにますます重要になっている。
強化学習(RL)に基づくモデルフリーDRは、そのようなEV充電負荷のバランスをとるための魅力的なアプローチである。
我々は、複数の充電ステーションを同時に調整するマルコフ決定プロセス(MDP)に基づくRLに関する以前の研究に基づいて構築する。
しかし,前回の研究で採用した計算コスト関数は,その実現可能性と実用性を制限した大きな訓練時間をもたらすことに留意する。
したがって、我々は、基本的に学習した制御ポリシーが常に柔軟性を提供しない充電需要を満たすよう強制するコスト関数の改善を提案する。
提案したバッチRLのQ-iteration実装を,実世界のデータを用いて,オリジナル(コスト)のQ-iteration実装と比較した。
具体的には,負荷平ら化の場合,2つのアプローチを比較する。
(i)RLに基づく充電ポリシーを学習するための処理時間
(2)未確認のテストデータに対する目標負荷を満たすという観点からの政策決定の全体的なパフォーマンス。
パフォーマンスは、異なるトレーニング期間と異なるトレーニングサンプルサイズで分析される。
両RLポリシのパフォーマンス結果に加えて、両方の点でパフォーマンスバウンダリを提供します。
(i)最適全知戦略、及び
(ii)時間とともに一様に充電する単純なヒューリスティックな個別のev
関連論文リスト
- Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Learning and Optimization for Price-based Demand Response of Electric Vehicle Charging [0.9124662097191375]
PBDRモデリングのための新しい意思決定型エンドツーエンドフレームワークを提案する。
EV客のPBDRパターンを用いた充電ステーション運転シミュレーションにおける本手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-04-16T06:39:30Z) - Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Combined Peak Reduction and Self-Consumption Using Proximal Policy
Optimization [0.2867517731896504]
住宅需要対応プログラムは、世帯レベルでの需要柔軟性を活性化することを目的としている。
近似ポリシー最適化(PPO)のような新しいRLアルゴリズムは、データの効率を向上しようと試みている。
我々は,PPO統合トランスファー学習の適応バージョンを示し,通常のコントローラと比較してコストを14.51%削減した。
論文 参考訳(メタデータ) (2022-11-27T13:53:52Z) - Computationally efficient joint coordination of multiple electric
vehicle charging points using reinforcement learning [6.37470346908743]
今日の電力網における大きな課題は、電気自動車(EV)充電による負荷の増加を管理することである。
同時に複数の充電点を協調的に座標する単一ステップの解法を提案する。
我々の新しいRLソリューションは、ビジネス・アズ・ユース・ポリシーと比較して、充電需要調整の性能を40~50%向上させています。
論文 参考訳(メタデータ) (2022-03-26T13:42:57Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Learning to Operate an Electric Vehicle Charging Station Considering
Vehicle-grid Integration [4.855689194518905]
本稿では、充電ステーションの利益を最大化するために、新しい集中的アロケーションと分散実行(CADE)強化学習(RL)フレームワークを提案する。
集中配置プロセスでは、EVを待機スポットまたは充電スポットに割り当て、分散実行プロセスでは、各充電器は、共有再生メモリからアクション値関数を学習しながら、独自の充電/放電判定を行う。
数値計算により,提案したCADEフレームワークは計算効率が高く,拡張性も高く,ベースラインモデル予測制御(MPC)よりも優れていた。
論文 参考訳(メタデータ) (2021-11-01T23:10:28Z) - Efficient Representation for Electric Vehicle Charging Station
Operations using Reinforcement Learning [5.815007821143811]
我々は、EV充電の緊急時、すなわち遅延値に基づくアグリゲーションスキームを開発する。
EVCSの総充電パワーのみを考慮するために、最低遅延第一規則(LLF)が採用されている。
また,同じ最適政策を達成するための等価な状態アグリゲーションを提案する。
論文 参考訳(メタデータ) (2021-08-07T00:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。