論文の概要: Two-stage Deep Reinforcement Learning for Inverter-based Volt-VAR
Control in Active Distribution Networks
- arxiv url: http://arxiv.org/abs/2005.11142v1
- Date: Wed, 20 May 2020 08:02:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 06:20:14.419569
- Title: Two-stage Deep Reinforcement Learning for Inverter-based Volt-VAR
Control in Active Distribution Networks
- Title(参考訳): アクティブ分散ネットワークにおけるインバータ型volt-var制御のための2段階深層強化学習
- Authors: Haotian Liu, Wenchuan Wu
- Abstract要約: 本稿では,インバータを用いたエネルギー資源の制御により,電圧分布を改善するための2段階深部強化学習法を提案する。
オフライン段階では、モデルミスマッチに頑健なオフラインエージェントを訓練するために、高い効率の対向強化学習アルゴリズムが開発された。
連続的なオンライン段階において、オフラインエージェントをオンラインエージェントとして安全に転送し、継続的な学習を行い、オンラインで制御し、安全性と効率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 3.260913246106564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based Vol/VAR optimization method is widely used to eliminate voltage
violations and reduce network losses. However, the parameters of active
distribution networks(ADNs) are not onsite identified, so significant errors
may be involved in the model and make the model-based method infeasible. To
cope with this critical issue, we propose a novel two-stage deep reinforcement
learning (DRL) method to improve the voltage profile by regulating
inverter-based energy resources, which consists of offline stage and online
stage. In the offline stage, a highly efficient adversarial reinforcement
learning algorithm is developed to train an offline agent robust to the model
mismatch. In the sequential online stage, we transfer the offline agent safely
as the online agent to perform continuous learning and controlling online with
significantly improved safety and efficiency. Numerical simulations on IEEE
test cases not only demonstrate that the proposed adversarial reinforcement
learning algorithm outperforms the state-of-art algorithm, but also show that
our proposed two-stage method achieves much better performance than the
existing DRL based methods in the online application.
- Abstract(参考訳): モデルに基づくVol/VAR最適化手法は、電圧違反を排除し、ネットワーク損失を減らすために広く用いられている。
しかし, アクティブ分布ネットワーク (ADN) のパラメータは同定されていないため, モデルに重大な誤りが生じ, モデルに基づく手法が実現不可能となる可能性がある。
この問題に対処するために、オフラインステージとオンラインステージからなるインバータベースのエネルギー資源を規制することにより、電圧プロファイルを改善するための新しい2段階深部強化学習法(DRL)を提案する。
オフライン段階では、モデルミスマッチに頑健なオフラインエージェントを訓練するために、高い効率の対向強化学習アルゴリズムが開発された。
シーケンシャルなオンラインステージでは、オフラインエージェントをオンラインエージェントとして安全に転送し、継続的な学習とオンライン制御を行い、安全性と効率を大幅に向上させる。
ieeeテストケースにおける数値シミュレーションは,提案手法が最先端アルゴリズムよりも優れていることを示すだけでなく,提案する2段階法がオンラインアプリケーションにおける既存のdrl法よりもはるかに優れた性能を実現することを示すものである。
関連論文リスト
- Distributionally Robust Off-Dynamics Reinforcement Learning: Provable
Efficiency with Linear Function Approximation [8.234072589087095]
我々は、オフダイナミックス強化学習(RL)を研究し、そこでポリシーはソースドメイン上でトレーニングされ、異なるターゲットドメインにデプロイされる。
オフダイナミックス RL の関数近似を用いたオンライン DRMDP に関する最初の研究を行った。
DR-LSVI-UCBは,関数近似を用いたオフダイナミックスのための高速オンラインDRMDPアルゴリズムである。
論文 参考訳(メタデータ) (2024-02-23T16:01:44Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Unsupervised Deep Unfolded PGD for Transmit Power Allocation in Wireless
Systems [0.6091702876917281]
本稿では,反復射影勾配(PGD)アルゴリズムをニューラルネットワークの層に深く展開し,ステップサイズパラメータを学習する,単純な低複素性TPCアルゴリズムを提案する。
高密度デバイス間通信(D2D)における性能評価の結果,提案手法は2回以上の繰り返し回数で反復アルゴリズムよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-06-20T19:51:21Z) - Deploying Offline Reinforcement Learning with Human Feedback [34.11507483049087]
強化学習は、現実世界のアプリケーションで意思決定タスクを約束している。
1つの実践的なフレームワークは、オフラインデータセットからパラメータ化されたポリシーモデルをトレーニングし、それらをオンライン環境にデプロイすることである。
このアプローチは、オフライントレーニングが完璧でない可能性があるため、危険なアクションを取る可能性のあるRLモデルのパフォーマンスが低下する可能性があるため、リスクが伴う可能性がある。
我々は、人間がRLモデルを監督し、オンラインデプロイメントフェーズで追加のフィードバックを提供する代替フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T12:13:16Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。
実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文 参考訳(メタデータ) (2022-01-25T03:14:57Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。