論文の概要: One-Step Two-Critic Deep Reinforcement Learning for Inverter-based
Volt-Var Control in Active Distribution Networks
- arxiv url: http://arxiv.org/abs/2203.16289v1
- Date: Wed, 30 Mar 2022 13:29:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 20:26:57.990518
- Title: One-Step Two-Critic Deep Reinforcement Learning for Inverter-based
Volt-Var Control in Active Distribution Networks
- Title(参考訳): アクティブ分散ネットワークにおけるインバータ型volt-var制御のための1ステップ2-critic深層強化学習
- Authors: Qiong Liu, Ye Guo, Lirong Deng, Haotian Liu, Dongyu Li, Hongbin Sun,
Wenqi Huang
- Abstract要約: Inverter-based volt-var control (IB-VVC) のための1段階2段階深部強化学習法を提案する。
- 参考スコア(独自算出の注目度): 15.667021542703564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A one-step two-critic deep reinforcement learning (OSTC-DRL) approach for
inverter-based volt-var control (IB-VVC) in active distribution networks is
proposed in this paper. Firstly, considering IB-VVC can be formulated as a
single-period optimization problem, we formulate the IB-VVC as a one-step
Markov decision process rather than the standard Markov decision process, which
simplifies the DRL learning task. Then we design the one-step actor-critic DRL
scheme which is a simplified version of recent DRL algorithms, and it avoids
the issue of Q value overestimation successfully. Furthermore, considering two
objectives of VVC: minimizing power loss and eliminating voltage violation, we
utilize two critics to approximate the rewards of two objectives separately. It
simplifies the approximation tasks of each critic, and avoids the interaction
effect between two objectives in the learning process of critic. The OSTC-DRL
approach integrates the one-step actor-critic DRL scheme and the two-critic
technology. Based on the OSTC-DRL, we design two centralized DRL algorithms.
Further, we extend the OSTC-DRL to multi-agent OSTC-DRL for decentralized
IB-VVC and design two multi-agent DRL algorithms. Simulations demonstrate that
the proposed OSTC-DRL has a faster convergence rate and a better control
performance, and the multi-agent OSTC-DRL works well for decentralized IB-VVC
problems.
- Abstract(参考訳): 本稿では,アクティブな分散ネットワークにおけるインバータ型volt-var制御(ib-vvc)のための1ステップ2-critic deep reinforcement learning(ostc-drl)手法を提案する。
まず, IB-VVCを単一周期最適化問題として定式化できることを考慮し, IB-VVCを標準マルコフ決定プロセスではなく1ステップマルコフ決定プロセスとして定式化する。
そこで我々は,最近のDRLアルゴリズムの簡易版であるワンステップアクタ批判DRLスキームを設計し,Q値過大評価の問題を回避する。
さらに,vvcの目標である電力損失の最小化と電圧違反の排除の2つを考慮して,2つの批判者を用いて2つの目標の報酬を別々に近似する。
各批評家の近似タスクを単純化し、批判の学習過程における2つの目的間の相互作用効果を回避する。
OSTC-DRLアプローチは、1段階のアクター・クリティカル・DRLスキームと2段階のテクノロジーを統合している。
OSTC-DRLに基づいて、2つの集中型DRLアルゴリズムを設計する。
さらに,OSTC-DRLを分散IB-VVC用マルチエージェントOSTC-DRLに拡張し,2つのマルチエージェントDRLアルゴリズムを設計する。
シミュレーションにより,提案OSTC-DRLはより高速な収束率と制御性能が向上し,マルチエージェントOSTC-DRLは分散IB-VVC問題に対して有効であることが示された。
関連論文リスト
- Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。
WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文 参考訳(メタデータ) (2024-07-18T02:46:06Z) - Multistep Criticality Search and Power Shaping in Microreactors with Reinforcement Learning [0.3562485774739681]
核マイクロリアクターにおける知的制御のための強化学習(RL)アルゴリズムを導入する。
近位政策最適化(PPO)とアクター・クリティカル(A2C)を用いたRLエージェントの訓練
その結果, 最適ドラム位置同定におけるPPOの優れた性能が示された。
論文 参考訳(メタデータ) (2024-06-22T20:14:56Z) - Safe and Accelerated Deep Reinforcement Learning-based O-RAN Slicing: A
Hybrid Transfer Learning Approach [20.344810727033327]
我々は,DRLをベースとしたO-RANスライシングにおいて,安全かつ迅速な収束を実現するためのハイブリッドTL支援手法を提案し,設計する。
提案されたハイブリッドアプローチは、少なくとも7.7%と20.7%は、平均的な初期報酬値と収束シナリオの割合を改善している。
論文 参考訳(メタデータ) (2023-09-13T18:58:34Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT
Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement
Learning Approach [56.84948632954274]
本稿では,無人航空機(MUAV)搭載のIoT(Internet of Things)ネットワークについて検討する。
本稿では、インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて、MUAVからの通信信号を強化することを提案する。
提案モデルでは,IoTネットワークの蓄積スループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略について検討する。
論文 参考訳(メタデータ) (2021-12-20T15:45:28Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - DRL-based Slice Placement Under Non-Stationary Conditions [0.8459686722437155]
我々は,非定常プロセスに従ってスライス要求が到着するという仮定の下で,最適ネットワークスライス配置のためのオンライン学習を検討する。
具体的には、2つの純DRLアルゴリズムと2つのハイブリッドDRLヒューリスティックアルゴリズムを提案する。
提案したハイブリッドDRLヒューリスティックアルゴリズムは、収束を達成するために、純DRLよりも少ない3桁の学習エピソードを必要とすることを示す。
論文 参考訳(メタデータ) (2021-08-05T10:05:12Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Bi-level Off-policy Reinforcement Learning for Volt/VAR Control
Involving Continuous and Discrete Devices [2.079959811127612]
Volt/Varコントロールでは、スロータイムスケールの離散デバイス(STDD)と高速タイムスケールの連続デバイス(FTCD)の両方が関与する。
従来の最適化手法はシステムの正確なモデルに強く依存しているが、モデル化に対する耐え難い努力のために実用的でない場合もある。
本論文では, この問題をモデルフリーで解くために, RL(バイレベル・オフポリシ強化学習)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-13T02:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。