論文の概要: Safe Reinforcement Learning for Strategic Bidding of Virtual Power
Plants in Day-Ahead Markets
- arxiv url: http://arxiv.org/abs/2307.05812v2
- Date: Tue, 12 Sep 2023 12:06:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 16:50:23.985768
- Title: Safe Reinforcement Learning for Strategic Bidding of Virtual Power
Plants in Day-Ahead Markets
- Title(参考訳): 昼頭市場における仮想発電所の戦略的入札のための安全強化学習
- Authors: Ognjen Stanojev, Lesia Mitridati, Riccardo de Nardis di Prata,
Gabriela Hug
- Abstract要約: 本稿では,日々の電力市場における仮想電力プラント(VPP)の戦略的入札のための新しい安全強化学習アルゴリズムを提案する。
提案アルゴリズムは,Deep Deterministic Policy Gradient (DDPG) 法を用いて,正確な市場モデルを必要としない競争入札政策を学習する。
- 参考スコア(独自算出の注目度): 0.5530212768657544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel safe reinforcement learning algorithm for
strategic bidding of Virtual Power Plants (VPPs) in day-ahead electricity
markets. The proposed algorithm utilizes the Deep Deterministic Policy Gradient
(DDPG) method to learn competitive bidding policies without requiring an
accurate market model. Furthermore, to account for the complex internal
physical constraints of VPPs we introduce two enhancements to the DDPG method.
Firstly, a projection-based safety shield that restricts the agent's actions to
the feasible space defined by the non-linear power flow equations and operating
constraints of distributed energy resources is derived. Secondly, a penalty for
the shield activation in the reward function that incentivizes the agent to
learn a safer policy is introduced. A case study based on the IEEE 13-bus
network demonstrates the effectiveness of the proposed approach in enabling the
agent to learn a highly competitive, safe strategic policy.
- Abstract(参考訳): 本稿では,電力市場における仮想発電プラント(vpps)の戦略的入札のための安全強化学習アルゴリズムを提案する。
提案アルゴリズムは,Deep Deterministic Policy Gradient (DDPG) 法を用いて,正確な市場モデルを必要としない競争入札政策を学習する。
さらに,vppsの複雑な内部物理的制約を考慮し,ddpg法の2つの拡張を導入する。
第一に、エージェントの動作を非線形の電力フロー方程式と分散エネルギー資源の運転制約によって定義される実現可能な空間に制限するプロジェクションベースの安全シールドを導出する。
次に、より安全なポリシーを学ぶためにエージェントにインセンティブを与える報酬機能におけるシールドアクティベーションに対するペナルティを導入する。
IEEE 13バスネットワークに基づくケーススタディでは、エージェントが高度に競争力のある安全な戦略方針を学習できるようにするための提案手法の有効性が示されている。
関連論文リスト
- Safety Constrained Multi-Agent Reinforcement Learning for Active Voltage Control [34.95810473913879]
能動電圧制御問題を制約付きマルコフゲームとして定式化し,安全性に制約のあるMARLアルゴリズムを提案する。
実世界規模シナリオを用いた配電ネットワークシミュレーション環境における本手法の評価を行った。
論文 参考訳(メタデータ) (2024-05-14T09:03:00Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - DNN-based Policies for Stochastic AC OPF [7.551130027327462]
最適電力フロー(SOPF)の定式化は、不確実性の下で実現可能性を維持するためのディスパッチ決定と制御ポリシーを計算することによって不確実性を処理するメカニズムを提供する。
我々は、不確実性に応じてジェネレータのディスパッチ決定を予測するディープニューラルネットワーク(DNN)ベースのポリシーを策定した。
より単純な政策に対するDNNポリシーの利点と、安全限界を強制し、ほぼ最適な解決策を生み出す上での有効性を実証した。
論文 参考訳(メタデータ) (2021-12-04T22:26:27Z) - Improving Robustness of Reinforcement Learning for Power System Control
with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。
具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。
本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:50:34Z) - Action Set Based Policy Optimization for Safe Power Grid Management [8.156111849078439]
電力グリッド管理のシーケンシャルな意思決定のために強化学習(RL)が採用されている。
本稿では,探索に基づく計画アルゴリズム上に構築された新しい手法を提案する。
NeurIPS 2020 Learning to Run Power Network (L2RPN)コンペで、我々のソリューションは安全に電力網を管理し、両トラックで第1位となった。
論文 参考訳(メタデータ) (2021-06-29T09:36:36Z) - A Learning-based Optimal Market Bidding Strategy for Price-Maker Energy
Storage [3.0839245814393728]
モデルベースコントローラを用いたオンラインスーパーバイザード・アクター・クリティカル (SAC) アルゴリズム-モデル予測制御 (MPC) を実装した。
エネルギー貯蔵剤は、市場浄化価格への影響を学習し、調整しながら最適な入札を行うように、このアルゴリズムを用いて訓練される。
私たちのコントリビューションは、オンラインで安全なSACアルゴリズムであり、現在のモデルベースの現状よりも優れています。
論文 参考訳(メタデータ) (2021-06-04T10:22:58Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Enforcing Policy Feasibility Constraints through Differentiable
Projection for Energy Optimization [57.88118988775461]
本稿では,ニューラルポリシー内での凸操作制約を強制するために,PROF(Projected Feasibility)を提案する。
エネルギー効率の高い建築操作とインバータ制御の2つの応用についてPROFを実証する。
論文 参考訳(メタデータ) (2021-05-19T01:58:10Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。