論文の概要: Bi-level Off-policy Reinforcement Learning for Volt/VAR Control
Involving Continuous and Discrete Devices
- arxiv url: http://arxiv.org/abs/2104.05902v1
- Date: Tue, 13 Apr 2021 02:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:40:14.802339
- Title: Bi-level Off-policy Reinforcement Learning for Volt/VAR Control
Involving Continuous and Discrete Devices
- Title(参考訳): 連続・離散デバイスを含むVolt/VAR制御のための二段階オフポリティクス強化学習
- Authors: Haotian Liu, Wenchuan Wu
- Abstract要約: Volt/Varコントロールでは、スロータイムスケールの離散デバイス(STDD)と高速タイムスケールの連続デバイス(FTCD)の両方が関与する。
従来の最適化手法はシステムの正確なモデルに強く依存しているが、モデル化に対する耐え難い努力のために実用的でない場合もある。
本論文では, この問題をモデルフリーで解くために, RL(バイレベル・オフポリシ強化学習)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.079959811127612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Volt/Var control (VVC) of active distribution networks(ADNs), both slow
timescale discrete devices (STDDs) and fast timescale continuous devices
(FTCDs) are involved. The STDDs such as on-load tap changers (OLTC) and FTCDs
such as distributed generators should be coordinated in time sequence. Such VCC
is formulated as a two-timescale optimization problem to jointly optimize FTCDs
and STDDs in ADNs. Traditional optimization methods are heavily based on
accurate models of the system, but sometimes impractical because of their
unaffordable effort on modelling. In this paper, a novel bi-level off-policy
reinforcement learning (RL) algorithm is proposed to solve this problem in a
model-free manner. A Bi-level Markov decision process (BMDP) is defined to
describe the two-timescale VVC problem and separate agents are set up for the
slow and fast timescale sub-problems. For the fast timescale sub-problem, we
adopt an off-policy RL method soft actor-critic with high sample efficiency.
For the slow one, we develop an off-policy multi-discrete soft actor-critic
(MDSAC) algorithm to address the curse of dimensionality with various STDDs. To
mitigate the non-stationary issue existing the two agents' learning processes,
we propose a multi-timescale off-policy correction (MTOPC) method by adopting
importance sampling technique. Comprehensive numerical studies not only
demonstrate that the proposed method can achieve stable and satisfactory
optimization of both STDDs and FTCDs without any model information, but also
support that the proposed method outperforms existing two-timescale VVC
methods.
- Abstract(参考訳): アクティブ分散ネットワーク(ADN)のVolt/Var制御(VVC)では、スロータイムスケール離散デバイス(STDD)と高速タイムスケール連続デバイス(FTCD)の両方が関与する。
オンロードタップ切換器(oltc)のようなstddと分散ジェネレータのようなftcdは時系列で調整されるべきである。
このようなVCCは、ADNにおけるFTCDとSTDDを協調的に最適化する2段階最適化問題として定式化されている。
従来の最適化手法はシステムの正確なモデルに強く依存しているが、モデル化に対する耐え難い努力のために実用的でない場合もある。
本稿では,この問題をモデルフリーで解くために,新しい2レベルオフポリシー強化学習(rl)アルゴリズムを提案する。
バイレベルマルコフ決定プロセス(BMDP)は、2時間スケールのVVC問題を記述するために定義され、遅くて速い時間スケールのサブプロブレムに対して別々のエージェントが設定される。
高速な時間スケールサブプロブレムでは, サンプル効率の高いソフトアクター・クリティックのオフポリティ・RL法を採用する。
遅いものには、様々なSTDDを用いて次元の呪いに対処する、オフ・ポリティクスのマルチディスク・ソフトアクター・クリティック(MDSAC)アルゴリズムを開発する。
両エージェントの学習プロセスに存在する非定常的問題を緩和するため,重要サンプリング手法を用いてマルチタイムオフポリチ補正(MTOPC)手法を提案する。
総合的な数値研究は、提案手法がモデル情報なしでSTDDとFTCDの安定かつ良好な最適化を達成できるだけでなく、提案手法が既存の2段階VVC法より優れていることを裏付けるものである。
関連論文リスト
- Distribution-Aware Continual Test Time Adaptation for Semantic
Segmentation [35.02574080164679]
実世界の応用において, セマンティックセグメンテーションCTTAを効率的かつ実用的なものにするための分散対応チューニング(DAT)手法を提案する。
DATは、連続的な適応プロセス中にデータ分布に基づいて、トレーニング可能なパラメータの2つの小さなグループを適応的に選択し、更新する。
我々は2つの広く使われているセマンティックセマンティックセマンティクスCTTAベンチマークで実験を行い、従来の最先端手法と比較して有望な性能を実現した。
論文 参考訳(メタデータ) (2023-09-24T10:48:20Z) - Continuous-Time Reinforcement Learning: New Design Algorithms with
Theoretical Insights and Performance Guarantees [4.248962756649803]
本稿では,一組の(分散化された)励起積分強化学習(EIRL)アルゴリズムを紹介する。
我々は不安定な非最小位相超音速車両を制御する重要な応用問題に対して収束と閉ループ安定性を保証する。
論文 参考訳(メタデータ) (2023-07-18T01:36:43Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - An Accelerated Doubly Stochastic Gradient Method with Faster Explicit
Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。
まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文 参考訳(メタデータ) (2022-08-11T22:27:22Z) - One-Step Two-Critic Deep Reinforcement Learning for Inverter-based
Volt-Var Control in Active Distribution Networks [15.667021542703564]
Inverter-based volt-var control (IB-VVC) のための1段階2段階深部強化学習法を提案する。
論文 参考訳(メタデータ) (2022-03-30T13:29:28Z) - Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。
最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。
提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文 参考訳(メタデータ) (2021-11-26T18:44:59Z) - Generalized Decision Transformer for Offline Hindsight Information
Matching [16.7594941269479]
本稿では、後視情報マッチング(HIM)問題を解くための一般化決定変換器(GDT)を提案する。
特徴関数と反因果アグリゲータの異なる選択が, 将来の異なる統計値に適合する新しいカテゴリーDT (CDT) と双方向DT (BDT) にどのように寄与するかを示す。
論文 参考訳(メタデータ) (2021-11-19T18:56:13Z) - Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge
Computing: A Contextual-Bandit Approach [81.5261621619557]
階層エッジコンピューティング(HEC)を用いた適応型異常検出手法を提案する。
まず,複雑性を増した複数のDNNモデルを構築し,それぞれを対応するHEC層に関連付ける。
そこで我々は、文脈帯域問題として定式化され、強化学習ポリシーネットワークを用いて解決される適応モデル選択スキームを設計する。
論文 参考訳(メタデータ) (2021-08-09T08:45:47Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Online Multi-agent Reinforcement Learning for Decentralized
Inverter-based Volt-VAR Control [3.260913246106564]
分散Volt/Var制御(VVC)法はアクティブ分散ネットワーク(ADN)において広く研究されている。
本稿では,VVCのためのオンラインマルチエージェント強化学習と分散制御フレームワーク(OLDC)を提案する。
論文 参考訳(メタデータ) (2020-06-23T09:03:46Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。