論文の概要: Learning and Fast Adaptation for Grid Emergency Control via Deep Meta
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2101.05317v1
- Date: Wed, 13 Jan 2021 19:45:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 07:48:50.249041
- Title: Learning and Fast Adaptation for Grid Emergency Control via Deep Meta
Reinforcement Learning
- Title(参考訳): 深層メタ強化学習によるグリッド緊急制御のための学習と高速適応
- Authors: Renke Huang, Yujiao Chen, Tianzhixi Yin, Qiuhua Huang, Jie Tan, Wenhao
Yu, Xinya Li, Ang Li, Yan Du
- Abstract要約: 電力システムは、より不確実性、より少ない慣性、および操作限界に近い重要な変換を受けています。
システムの信頼性とセキュリティを維持するために、グリッド緊急制御を強化する必要がある。
近年、深層補強学習(DRL)ベースのグリッド制御ソリューションの開発に大きな進歩を遂げています。
既存のDRLベースのソリューションには2つの大きな制限がある: 1) グリッドの動作条件、システムパラメータ、コンテンシーにうまく対応できない; 2) 新しいグリッドの動作条件、システムパラメータ、およびコンテンシーに迅速に適応する能力が欠如し、現実のアプリケーションへの適用性が制限されている。
- 参考スコア(独自算出の注目度): 22.58070790887177
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As power systems are undergoing a significant transformation with more
uncertainties, less inertia and closer to operation limits, there is increasing
risk of large outages. Thus, there is an imperative need to enhance grid
emergency control to maintain system reliability and security. Towards this
end, great progress has been made in developing deep reinforcement learning
(DRL) based grid control solutions in recent years. However, existing DRL-based
solutions have two main limitations: 1) they cannot handle well with a wide
range of grid operation conditions, system parameters, and contingencies; 2)
they generally lack the ability to fast adapt to new grid operation conditions,
system parameters, and contingencies, limiting their applicability for
real-world applications. In this paper, we mitigate these limitations by
developing a novel deep meta reinforcement learning (DMRL) algorithm. The DMRL
combines the meta strategy optimization together with DRL, and trains policies
modulated by a latent space that can quickly adapt to new scenarios. We test
the developed DMRL algorithm on the IEEE 300-bus system. We demonstrate fast
adaptation of the meta-trained DRL polices with latent variables to new
operating conditions and scenarios using the proposed method and achieve
superior performance compared to the state-of-the-art DRL and model predictive
control (MPC) methods.
- Abstract(参考訳): 電力系統は、不確実性が低く、慣性が低く、運転限界に近い大きな変化を遂げているため、大規模な停電のリスクが高まっている。
したがって、システムの信頼性とセキュリティを維持するために、グリッド緊急制御を強化する必要がある。
この目的に向けて、近年、深層強化学習(DRL)に基づくグリッド制御ソリューションの開発において大きな進歩を遂げている。
しかし、既存のDRLベースのソリューションには2つの大きな制限がある: 1) グリッド操作条件、システムパラメータ、およびコンテンシーにうまく対応できない; 2) 新しいグリッド動作条件、システムパラメータ、およびコンテンシーに迅速に適応する能力が欠如し、現実のアプリケーションへの適用性が制限されている。
本稿では,新しい深層メタ強化学習(dmrl)アルゴリズムの開発により,これらの制限を緩和する。
DMRLは、メタ戦略最適化とDRLを組み合わせて、新しいシナリオに迅速に適応できる潜在空間によって変調されたポリシーを訓練する。
IEEE 300-busシステム上でDMRLアルゴリズムを試作した。
提案手法を用いて,潜伏変数を持つメタ訓練DRL警察を新しい運転条件やシナリオに迅速に適応し,現状のDRLとモデル予測制御(MPC)法と比較して優れた性能を実現する。
関連論文リスト
- Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。
WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文 参考訳(メタデータ) (2024-07-18T02:46:06Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards
global optimality [5.0915256711576475]
本稿では,Tlayy(TO)とReinforcement Learning(RL)を1つの軌道で組み合わせた,動的システムの連続制御のための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-12T10:16:35Z) - Federated Deep Reinforcement Learning for the Distributed Control of
NextG Wireless Networks [16.12495409295754]
次世代(NextG)ネットワークは、拡張現実(AR)やコネクテッド・自律走行車といった、インターネットの触覚を必要とするアプリケーションをサポートすることが期待されている。
データ駆動アプローチは、現在の運用条件に適応するネットワークの能力を改善することができる。
深部RL(DRL)は複雑な環境においても良好な性能を発揮することが示されている。
論文 参考訳(メタデータ) (2021-12-07T03:13:20Z) - Scalable Voltage Control using Structure-Driven Hierarchical Deep
Reinforcement Learning [0.0]
本稿では,新しい階層型深層強化学習(drl)による電力系統の電圧制御設計を提案する。
本研究では,電力系統の領域分割構造を利用して,大規模グリッドモデルに適用可能な階層型drl設計を提案する。
地域別分散型RLエージェントを訓練し、各エリアの低レベルポリシーを算出し、低レベルポリシーの更新を使用して低レベルエージェントが行う制御アクションを効率的に調整する高レベルDRLエージェントを同時トレーニングします。
論文 参考訳(メタデータ) (2021-01-29T21:30:59Z) - MRAC-RL: A Framework for On-Line Policy Adaptation Under Parametric
Model Uncertainty [0.34265828682659694]
強化学習アルゴリズムは動的システムの制御ポリシーの開発に成功している。
本稿では,線形および非線形の幅広いシステムに適用可能な新しいMRACアルゴリズムを提案する。
MRAC-RLアプローチは制御ポリシの開発において最先端のRLアルゴリズムを改善することを実証する。
論文 参考訳(メタデータ) (2020-11-20T18:55:53Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。