論文の概要: Action Set Based Policy Optimization for Safe Power Grid Management
- arxiv url: http://arxiv.org/abs/2106.15200v1
- Date: Tue, 29 Jun 2021 09:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 03:03:09.483948
- Title: Action Set Based Policy Optimization for Safe Power Grid Management
- Title(参考訳): 安全な電力グリッド管理のためのアクションセットに基づく政策最適化
- Authors: Bo Zhou, Hongsheng Zeng, Yuecheng Liu, Kejiao Li, Fan Wang, Hao Tian
- Abstract要約: 電力グリッド管理のシーケンシャルな意思決定のために強化学習(RL)が採用されている。
本稿では,探索に基づく計画アルゴリズム上に構築された新しい手法を提案する。
NeurIPS 2020 Learning to Run Power Network (L2RPN)コンペで、我々のソリューションは安全に電力網を管理し、両トラックで第1位となった。
- 参考スコア(独自算出の注目度): 8.156111849078439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maintaining the stability of the modern power grid is becoming increasingly
difficult due to fluctuating power consumption, unstable power supply coming
from renewable energies, and unpredictable accidents such as man-made and
natural disasters. As the operation on the power grid must consider its impact
on future stability, reinforcement learning (RL) has been employed to provide
sequential decision-making in power grid management. However, existing methods
have not considered the environmental constraints. As a result, the learned
policy has risk of selecting actions that violate the constraints in
emergencies, which will escalate the issue of overloaded power lines and lead
to large-scale blackouts. In this work, we propose a novel method for this
problem, which builds on top of the search-based planning algorithm. At the
planning stage, the search space is limited to the action set produced by the
policy. The selected action strictly follows the constraints by testing its
outcome with the simulation function provided by the system. At the learning
stage, to address the problem that gradients cannot be propagated to the
policy, we introduce Evolutionary Strategies (ES) with black-box policy
optimization to improve the policy directly, maximizing the returns of the long
run. In NeurIPS 2020 Learning to Run Power Network (L2RPN) competition, our
solution safely managed the power grid and ranked first in both tracks.
- Abstract(参考訳): 電力消費の変動、再生可能エネルギーからの不安定な電力供給、人工や自然災害などの予測不能な事故により、現代の電力網の安定性を維持することがますます困難になっている。
電力グリッドの運用は将来の安定への影響を考慮する必要があるため、電力グリッド管理におけるシーケンシャルな意思決定のために強化学習(RL)が採用されている。
しかし,既存の手法では環境制約は考慮されていない。
その結果、学習政策は緊急時の制約に違反した行動を選択するリスクがあり、過負荷の電力線の問題がエスカレートし、大規模な停電につながる。
本研究では,探索型計画アルゴリズムを基盤としたこの問題に対する新しい手法を提案する。
計画段階では、検索空間はポリシーによって生成されたアクションセットに限定される。
選択されたアクションは、システムが提供するシミュレーション関数で結果をテストすることによって、厳密に制約に従う。
学習段階では,グラデーションが政策に伝達できないという問題に対処するために,ブラックボックス政策最適化を伴う進化戦略(es)を導入し,政策を直接改善し,長期のリターンを最大化する。
NeurIPS 2020 Learning to Run Power Network (L2RPN)コンペで、我々のソリューションは安全に電力網を管理し、両トラックで第1位となった。
関連論文リスト
- Optimizing Load Scheduling in Power Grids Using Reinforcement Learning and Markov Decision Processes [0.0]
本稿では,動的負荷スケジューリングの課題に対処する強化学習(RL)手法を提案する。
提案手法は実時間負荷スケジューリングのためのロバストでスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-23T09:16:22Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Best of Both Worlds in Online Control: Competitive Ratio and Policy
Regret [61.59646565655169]
我々は,最近提案されたオンライン制御アルゴリズムが,両世界のベストを達成していることを示す。
線形力学系が未知の場合には, 準線形後悔対最適競争政策が達成可能であると結論づける。
論文 参考訳(メタデータ) (2022-11-21T07:29:08Z) - A Prescriptive Dirichlet Power Allocation Policy with Deep Reinforcement
Learning [6.003234406806134]
本研究では,連続的なアロケーションタスクに対するディリクレポリシを提案し,そのポリシー勾配のバイアスと分散を分析した。
ディリクレポリシはバイアスフリーであり,ガウス-ソフトマックスポリシよりもはるかに高速な収束と性能を提供することを示した。
実験の結果, 最適動作を規定し, 多出力電源システムの効率と持続可能性を向上させる可能性が示された。
論文 参考訳(メタデータ) (2022-01-20T20:41:04Z) - DNN-based Policies for Stochastic AC OPF [7.551130027327462]
最適電力フロー(SOPF)の定式化は、不確実性の下で実現可能性を維持するためのディスパッチ決定と制御ポリシーを計算することによって不確実性を処理するメカニズムを提供する。
我々は、不確実性に応じてジェネレータのディスパッチ決定を予測するディープニューラルネットワーク(DNN)ベースのポリシーを策定した。
より単純な政策に対するDNNポリシーの利点と、安全限界を強制し、ほぼ最適な解決策を生み出す上での有効性を実証した。
論文 参考訳(メタデータ) (2021-12-04T22:26:27Z) - Enforcing Policy Feasibility Constraints through Differentiable
Projection for Energy Optimization [57.88118988775461]
本稿では,ニューラルポリシー内での凸操作制約を強制するために,PROF(Projected Feasibility)を提案する。
エネルギー効率の高い建築操作とインバータ制御の2つの応用についてPROFを実証する。
論文 参考訳(メタデータ) (2021-05-19T01:58:10Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Delayed Q-update: A novel credit assignment technique for deriving an
optimal operation policy for the Grid-Connected Microgrid [3.3754780158324564]
本稿では,新しいクレジット代入手法である遅延Q更新を用いて,望ましいマイクログリッド動作ポリシーを導出する手法を提案する。
この技術は、マイクログリッドの遅延有効性に取り組み、解決する能力などの新しい特徴を取り入れている。
高度に制御されたマイクログリッド環境下での準最適操作ポリシーの探索を支援する。
論文 参考訳(メタデータ) (2020-06-30T10:30:15Z) - Off-policy Learning for Remote Electrical Tilt Optimization [68.8204255655161]
本稿では,オフポリティクス型マルチアーマッド・バンディット(CMAB)技術を用いた遠隔電気ティルト(RET)最適化の課題に対処する。
データから最適な傾き更新ポリシーを抽出するためのCMAB学習アルゴリズムを提案する。
当社のポリシでは,データ収集に使用されるルールベースのロギングポリシに対して,一貫した改善が示されています。
論文 参考訳(メタデータ) (2020-05-21T11:30:31Z) - Accelerating Deep Reinforcement Learning With the Aid of Partial Model:
Energy-Efficient Predictive Video Streaming [97.75330397207742]
深層強化学習を用いて,モバイルネットワーク上でのエネルギー効率の高いビデオストリーミングのための予測電力割り当てを考案した。
連続状態と行動空間を扱うために、我々はDeep Deterministic Policy gradient (DDPG)アルゴリズムを利用する。
シミュレーションの結果,提案手法は完全大規模チャネル予測に基づいて導出される最適方針に収束することが示された。
論文 参考訳(メタデータ) (2020-03-21T17:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。