論文の概要: Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.02715v1
- Date: Tue, 6 Dec 2022 02:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:23:22.542964
- Title: Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning
- Title(参考訳): モデルベース深層強化学習による電圧制御戦略の効率的な学習
- Authors: Ramij R. Hossain, Tianzhixi Yin, Yan Du, Renke Huang, Jie Tan, Wenhao
Yu, Yuan Liu, Qiuhua Huang
- Abstract要約: 本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.936452412191326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article proposes a model-based deep reinforcement learning (DRL) method
to design emergency control strategies for short-term voltage stability
problems in power systems. Recent advances show promising results in model-free
DRL-based methods for power systems, but model-free methods suffer from poor
sample efficiency and training time, both critical for making state-of-the-art
DRL algorithms practically applicable. DRL-agent learns an optimal policy via a
trial-and-error method while interacting with the real-world environment. And
it is desirable to minimize the direct interaction of the DRL agent with the
real-world power grid due to its safety-critical nature. Additionally,
state-of-the-art DRL-based policies are mostly trained using a physics-based
grid simulator where dynamic simulation is computationally intensive, lowering
the training efficiency. We propose a novel model-based-DRL framework where a
deep neural network (DNN)-based dynamic surrogate model, instead of a
real-world power-grid or physics-based simulation, is utilized with the policy
learning framework, making the process faster and sample efficient. However,
stabilizing model-based DRL is challenging because of the complex system
dynamics of large-scale power systems. We solved these issues by incorporating
imitation learning to have a warm start in policy learning, reward-shaping, and
multi-step surrogate loss. Finally, we achieved 97.5% sample efficiency and
87.7% training efficiency for an application to the IEEE 300-bus test system.
- Abstract(参考訳): 本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年の進歩は、モデルフリーのDRLベースの電力系統の手法において有望な結果を示しているが、モデルフリーの手法はサンプル効率の低下とトレーニング時間に悩まされている。
DRLエージェントは、実環境と対話しながら試行錯誤法を介して最適なポリシーを学習する。
また,DRLエージェントと現実世界の電力網との直接的相互作用を最小化することが望ましい。
さらに、最先端のDRLベースのポリシーは、動的シミュレーションが計算集約的な物理ベースのグリッドシミュレータを用いてトレーニングされ、トレーニング効率が低下する。
本稿では,実世界のパワーグリッドや物理ベースのシミュレーションではなく,ディープニューラルネットワーク(dnn)ベースの動的サロゲートモデルがポリシ学習フレームワークで活用され,プロセスの高速化とサンプル化が実現する,新たなモデルベースdrlフレームワークを提案する。
しかし、大規模電力系統の複雑なシステムダイナミクスのため、モデルベースDRLの安定化は困難である。
我々はこれらの問題を解決するために模倣学習を取り入れ、政策学習、報酬形成、多段階の代理損失を暖かく始める。
最後に,IEEE 300-busテストシステムに適用したアプリケーションに対して,97.5%のサンプル効率と87.7%のトレーニング効率を実現した。
関連論文リスト
- Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。
交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。
本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:16:57Z) - SINDy-RL: Interpretable and Efficient Model-Based Reinforcement Learning [5.59265003686955]
SINDy-RLは,SINDyと深層強化学習を組み合わせたフレームワークである。
SINDy-RLは最先端のDRLアルゴリズムに匹敵する性能を達成する。
我々は,ベンチマーク制御環境と流体問題に対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-14T05:17:39Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Physics-Informed Model-Based Reinforcement Learning [19.01626581411011]
従来の強化学習アルゴリズムの欠点の1つは、サンプル効率の低さである。
我々は、その遷移力学と報酬関数のモデルを学び、それを使って想像軌道を生成し、それらをバックプロパゲーションしてポリシーを更新する。
モデルベースRLでは,初期条件に敏感な環境において,モデル精度が重要となることを示す。
また、挑戦的な環境では、物理インフォームドモデルベースRLは最先端のモデルフリーRLアルゴリズムよりも平均回帰性が高いことを示す。
論文 参考訳(メタデータ) (2022-12-05T11:26:10Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Physics-informed Evolutionary Strategy based Control for Mitigating
Delayed Voltage Recovery [14.44961822756759]
物理インフォームド・ガイド付きメタ進化戦略(ES)に基づく新しいデータ駆動リアルタイム電力系統電圧制御法を提案する。
主な目的は、故障による遅延電圧回復(FIDVR)問題を緩和するための適応制御戦略を迅速に提供することである。
論文 参考訳(メタデータ) (2021-11-29T07:12:40Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。