論文の概要: Curriculum Based Reinforcement Learning of Grid Topology Controllers to
Prevent Thermal Cascading
- arxiv url: http://arxiv.org/abs/2112.09996v1
- Date: Sat, 18 Dec 2021 20:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 17:52:21.430385
- Title: Curriculum Based Reinforcement Learning of Grid Topology Controllers to
Prevent Thermal Cascading
- Title(参考訳): 熱カスケード防止のためのグリッドトポロジー制御系のカリキュラムベース強化学習
- Authors: Amarsagar Reddy Ramapuram Matavalam, Kishan Prudhvi Guddanti, Yang
Weng, Venkataramana Ajjarapu
- Abstract要約: 本稿では,電力系統演算子のドメイン知識を強化学習フレームワークに統合する方法について述べる。
環境を改良することにより、報酬チューニングを伴うカリキュラムベースのアプローチをトレーニング手順に組み込む。
複数のシナリオに対する並列トレーニングアプローチは、エージェントをいくつかのシナリオに偏りなくし、グリッド操作の自然変動に対して堅牢にするために使用される。
- 参考スコア(独自算出の注目度): 0.19116784879310028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes how domain knowledge of power system operators can be
integrated into reinforcement learning (RL) frameworks to effectively learn
agents that control the grid's topology to prevent thermal cascading. Typical
RL-based topology controllers fail to perform well due to the large
search/optimization space. Here, we propose an actor-critic-based agent to
address the problem's combinatorial nature and train the agent using the RL
environment developed by RTE, the French TSO. To address the challenge of the
large optimization space, a curriculum-based approach with reward tuning is
incorporated into the training procedure by modifying the environment using
network physics for enhanced agent learning. Further, a parallel training
approach on multiple scenarios is employed to avoid biasing the agent to a few
scenarios and make it robust to the natural variability in grid operations.
Without these modifications to the training procedure, the RL agent failed for
most test scenarios, illustrating the importance of properly integrating domain
knowledge of physical systems for real-world RL learning. The agent was tested
by RTE for the 2019 learning to run the power network challenge and was awarded
the 2nd place in accuracy and 1st place in speed. The developed code is
open-sourced for public use.
- Abstract(参考訳): 本稿では,電力系統オペレータのドメイン知識を強化学習(RL)フレームワークに統合し,グリッドのトポロジを制御するエージェントを効果的に学習し,熱カスケードを防止する方法について述べる。
典型的なRLベースのトポロジコントローラは、大きな探索/最適化空間のためにうまく機能しない。
本稿では,フランスのTSOであるRTEが開発したRL環境を用いて,問題の組合せ性に対処し,エージェントを訓練するアクタ批判型エージェントを提案する。
大規模な最適化空間の課題に対処するため,ネットワーク物理を用いて学習環境を改良し,報酬調整によるカリキュラムベースの学習手法を訓練手順に組み込んだ。
さらに、複数のシナリオに対する並列トレーニングアプローチを用いて、エージェントをいくつかのシナリオに偏りなくし、グリッド操作の自然変動に対して堅牢にする。
これらのトレーニング手順の変更がなければ、RLエージェントはほとんどのテストシナリオで失敗し、実世界のRL学習のための物理システムのドメイン知識を適切に統合することの重要性が説明された。
このエージェントは、2019年の電力ネットワークチャレンジの学習のためにRTEによってテストされ、精度2位、速度1位を与えられた。
開発コードもオープンソースで公開されている。
関連論文リスト
- Active Reinforcement Learning for Robust Building Control [0.0]
強化学習(Reinforcement Learning, RL)は、Atariゲーム、Goのゲーム、ロボット制御、ビルド最適化で大きな成功を収めた、最適な制御のための強力なツールである。
教師なし環境設計 (UED) は, エージェントが特別に選抜された環境において, 学習を支援するための訓練を行う, この問題に対する解決策として提案されている。
この結果から,ActivePLRはエネルギー使用量を最小限に抑えつつ,建物制御の際の快適さを最大化しながら,最先端のUEDアルゴリズムより優れた性能を発揮できることが示唆された。
論文 参考訳(メタデータ) (2023-12-16T02:18:45Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Reinforcement Learning for Resilient Power Grids [0.23204178451683263]
従来の送電網は、より頻繁で極端な自然災害の下で時代遅れになっている。
ほとんどの電力グリッドシミュレータとRLインタフェースは、大規模なブラックアウトやネットワークがサブネットワークに分割された場合の電力グリッドのシミュレーションをサポートしない。
本研究では,既存のシミュレータとRLインタフェースであるGrid2Op上に構築された電力グリッドシミュレータを提案し,Grid2Opの動作と観測空間を制限する実験を行った。
論文 参考訳(メタデータ) (2022-12-08T04:40:14Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文 参考訳(メタデータ) (2022-04-22T13:00:51Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Improving Robustness of Reinforcement Learning for Power System Control
with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。
具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。
本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:50:34Z) - Hybrid Imitation Learning for Real-Time Service Restoration in Resilient
Distribution Systems [4.634828363888443]
自己修復能力は、レジリエントな分散システムにとって最も重要な要素の1つである。
これらのエージェントは、リアルタイムの要件を満たすために事前に設計された決定ポリシーを備えるべきである。
本稿では,そのような政策を訓練するための模倣学習(IL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-29T22:51:05Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - A Survey of Reinforcement Learning Algorithms for Dynamically Varying
Environments [1.713291434132985]
強化学習(Reinforcement Learning, RL)アルゴリズムは、在庫管理、レコメンデータシステム、車両交通管理、クラウドコンピューティング、ロボット工学などの分野で応用されている。
これらの領域で生じる多くのタスクの現実的な合併症は、古典的RLアルゴリズムの基礎となる基本的な仮定で解くのを難しくする。
本稿では、動的に変化する環境モデルを扱うために開発されたRL法について調査する。
これらのアルゴリズムの代表的コレクションは、それらの分類と相対的なメリットとデメリットと共に、この研究で詳細に議論されている。
論文 参考訳(メタデータ) (2020-05-19T09:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。