論文の概要: DNN-based Policies for Stochastic AC OPF
- arxiv url: http://arxiv.org/abs/2112.02441v1
- Date: Sat, 4 Dec 2021 22:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 17:32:38.180877
- Title: DNN-based Policies for Stochastic AC OPF
- Title(参考訳): 確率型AC OPFのためのDNNベースのポリシー
- Authors: Sarthak Gupta, Sidhant Misra, Deepjyoti Deka, Vassilis Kekatos
- Abstract要約: 最適電力フロー(SOPF)の定式化は、不確実性の下で実現可能性を維持するためのディスパッチ決定と制御ポリシーを計算することによって不確実性を処理するメカニズムを提供する。
我々は、不確実性に応じてジェネレータのディスパッチ決定を予測するディープニューラルネットワーク(DNN)ベースのポリシーを策定した。
より単純な政策に対するDNNポリシーの利点と、安全限界を強制し、ほぼ最適な解決策を生み出す上での有効性を実証した。
- 参考スコア(独自算出の注目度): 7.551130027327462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A prominent challenge to the safe and optimal operation of the modern power
grid arises due to growing uncertainties in loads and renewables. Stochastic
optimal power flow (SOPF) formulations provide a mechanism to handle these
uncertainties by computing dispatch decisions and control policies that
maintain feasibility under uncertainty. Most SOPF formulations consider simple
control policies such as affine policies that are mathematically simple and
resemble many policies used in current practice. Motivated by the efficacy of
machine learning (ML) algorithms and the potential benefits of general control
policies for cost and constraint enforcement, we put forth a deep neural
network (DNN)-based policy that predicts the generator dispatch decisions in
real time in response to uncertainty. The weights of the DNN are learnt using
stochastic primal-dual updates that solve the SOPF without the need for prior
generation of training labels and can explicitly account for the feasibility
constraints in the SOPF. The advantages of the DNN policy over simpler policies
and their efficacy in enforcing safety limits and producing near optimal
solutions are demonstrated in the context of a chance constrained formulation
on a number of test cases.
- Abstract(参考訳): 近代電力網の安全かつ最適運用に対する顕著な課題は、負荷や再生可能エネルギーの不確実性の増加によるものである。
確率最適電力フロー(SOPF)の定式化は、不確実性の下で実現可能性を維持するためのディスパッチ決定と制御ポリシーを計算することによって、これらの不確実性を処理するメカニズムを提供する。
ほとんどのsopf定式化は、数学的に単純で、現在の手法で使われる多くのポリシーに類似したアフィンポリシーのような単純な制御ポリシーを考える。
機械学習(ML)アルゴリズムの有効性とコストと制約執行に対する一般的な制御ポリシの潜在的なメリットに触発されて、我々は、不確実性に応じてジェネレータのディスパッチ決定をリアルタイムで予測するディープニューラルネットワーク(DNN)ベースのポリシーを提案しました。
DNNの重みは、前世代のトレーニングラベルを必要とせずにSOPFを解く確率的原始双対更新を用いて学習され、SOPFにおける実現可能性の制約を明示的に説明することができる。
簡易なポリシーに対するdnnポリシーの利点と、安全限界の実施と、至近の最適解の生成における効果は、多くのテストケースで確率制約のある定式化の文脈で実証されている。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Randomized Policy Optimization for Optimal Stopping [0.0]
本稿では,ランダム化線形ポリシーに基づく最適停止手法を提案する。
提案手法は最先端手法を著しく上回り得ることを示す。
論文 参考訳(メタデータ) (2022-03-25T04:33:15Z) - Learning Stochastic Parametric Differentiable Predictive Control
Policies [2.042924346801313]
本稿では、ニューラルネットワークポリシーの教師なし学習のための、パラメトリック微分可能予測制御(SP-DPC)と呼ばれるスケーラブルな代替手法を提案する。
SP-DPCはパラメトリック制約最適制御問題に対する決定論的近似として定式化される。
閉ループ制約と確率満足度に関するSP-DPC法を用いて学習したポリシーに関する理論的確率的保証を提供する。
論文 参考訳(メタデータ) (2022-03-02T22:46:32Z) - Neural-Progressive Hedging: Enforcing Constraints in Reinforcement
Learning with Stochastic Programming [8.942831966541231]
本稿では、強化学習(RL)ポリシーを実行するオンラインフェーズにおいて、プログラミングを活用するフレームワークを提案する。
目的は、条件付きバリュー・アット・リスク(CVaR)のような制約やリスクベースの目標に対する実現性を確保することである。
NPフレームワークは、深いRLや他のベースラインアプローチよりも優れたポリシーを生成することを示す。
論文 参考訳(メタデータ) (2022-02-27T19:39:19Z) - A Prescriptive Dirichlet Power Allocation Policy with Deep Reinforcement
Learning [6.003234406806134]
本研究では,連続的なアロケーションタスクに対するディリクレポリシを提案し,そのポリシー勾配のバイアスと分散を分析した。
ディリクレポリシはバイアスフリーであり,ガウス-ソフトマックスポリシよりもはるかに高速な収束と性能を提供することを示した。
実験の結果, 最適動作を規定し, 多出力電源システムの効率と持続可能性を向上させる可能性が示された。
論文 参考訳(メタデータ) (2022-01-20T20:41:04Z) - Certification of Iterative Predictions in Bayesian Neural Networks [79.15007746660211]
我々は、BNNモデルの軌道が与えられた状態に到達する確率に対して、安全でない状態の集合を避けながら低い境界を計算する。
我々は、制御と強化学習の文脈において、下限を用いて、与えられた制御ポリシーの安全性保証を提供する。
論文 参考訳(メタデータ) (2021-05-21T05:23:57Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Chance-Constrained Control with Lexicographic Deep Reinforcement
Learning [77.34726150561087]
本稿では,レキシックなDeep Reinforcement Learning(DeepRL)に基づく確率制約マルコフ決定プロセスを提案する。
有名なDeepRLアルゴリズムDQNの辞書版も提案され、シミュレーションによって検証されている。
論文 参考訳(メタデータ) (2020-10-19T13:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。