論文の概要: Hierarchical Reinforcement Learning for Power Network Topology Control
- arxiv url: http://arxiv.org/abs/2311.02129v1
- Date: Fri, 3 Nov 2023 12:33:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 19:26:51.889140
- Title: Hierarchical Reinforcement Learning for Power Network Topology Control
- Title(参考訳): 電力ネットワークトポロジー制御のための階層強化学習
- Authors: Blazej Manczak and Jan Viebahn and Herke van Hoof
- Abstract要約: 高次元行動空間での学習は、現実世界のシステムに強化学習を適用する上で重要な課題である。
本稿では,RL法による電力ネットワーク制御の可能性について検討する。
- 参考スコア(独自算出の注目度): 22.203574989348773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning in high-dimensional action spaces is a key challenge in applying
reinforcement learning (RL) to real-world systems. In this paper, we study the
possibility of controlling power networks using RL methods. Power networks are
critical infrastructures that are complex to control. In particular, the
combinatorial nature of the action space poses a challenge to both conventional
optimizers and learned controllers. Hierarchical reinforcement learning (HRL)
represents one approach to address this challenge. More precisely, a HRL
framework for power network topology control is proposed. The HRL framework
consists of three levels of action abstraction. At the highest level, there is
the overall long-term task of power network operation, namely, keeping the
power grid state within security constraints at all times, which is decomposed
into two temporally extended actions: 'do nothing' versus 'propose a topology
change'. At the intermediate level, the action space consists of all
controllable substations. Finally, at the lowest level, the action space
consists of all configurations of the chosen substation. By employing this HRL
framework, several hierarchical power network agents are trained for the IEEE
14-bus network. Whereas at the highest level a purely rule-based policy is
still chosen for all agents in this study, at the intermediate level the policy
is trained using different state-of-the-art RL algorithms. At the lowest level,
either an RL algorithm or a greedy algorithm is used. The performance of the
different 3-level agents is compared with standard baseline (RL or greedy)
approaches. A key finding is that the 3-level agent that employs RL both at the
intermediate and the lowest level outperforms all other agents on the most
difficult task. Our code is publicly available.
- Abstract(参考訳): 高次元行動空間での学習は、実世界のシステムに強化学習(RL)を適用する上で重要な課題である。
本稿では,RL法による電力ネットワーク制御の可能性について検討する。
電力網は制御が複雑な重要なインフラである。
特に、アクション空間の組合せの性質は、従来のオプティマイザと学習コントローラの両方に課題をもたらす。
階層的強化学習(HRL)はこの課題に対処するための一つのアプローチである。
より正確には、電力ネットワークトポロジ制御のためのHRLフレームワークを提案する。
HRLフレームワークは3つのレベルのアクション抽象化で構成されている。
最高レベルでは、電力網運用の全体的な長期的タスク、すなわち、電力グリッド状態を常にセキュリティ上の制約内に保持し、時間的に拡張された2つのアクション、すなわち「何もしない」と「トポロジーの変更を提案する」に分解する。
中間レベルでは、アクション空間はすべての制御可能な変電所からなる。
最後に、最低レベルでは、アクション空間は選択されたサブステーションのすべての構成からなる。
このHRLフレームワークを利用することで、IEEE 14バスネットワークのために複数の階層的なパワーネットワークエージェントを訓練する。
最高レベルでは、純粋なルールに基づくポリシーが依然としてすべてのエージェントに選択されているのに対して、中間レベルでは、ポリシーは異なる最先端のrlアルゴリズムを使って訓練される。
最も低いレベルでは、rlアルゴリズムまたはgreedyアルゴリズムが使用される。
異なる3レベルエージェントの性能は標準ベースライン(RLまたはgreedy)アプローチと比較される。
重要な発見は、RLを利用する3レベルエージェントが中間レベルと下位レベルの両方で、最も難しいタスクで他のエージェントよりも優れていることである。
私たちのコードは公開されています。
関連論文リスト
- ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - Multi-Agent Reinforcement Learning for Power Grid Topology Optimization [45.74830585715129]
本稿では,拡張行動空間に適した階層型マルチエージェント強化学習(MARL)フレームワークを提案する。
実験結果から, 単エージェントRL法とMARLフレームワークの競合性能が示唆された。
また、下位エージェントに対する異なるRLアルゴリズムと上位エージェントに対する異なるポリシーを比較した。
論文 参考訳(メタデータ) (2023-10-04T06:37:43Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Curriculum Based Reinforcement Learning of Grid Topology Controllers to
Prevent Thermal Cascading [0.19116784879310028]
本稿では,電力系統演算子のドメイン知識を強化学習フレームワークに統合する方法について述べる。
環境を改良することにより、報酬チューニングを伴うカリキュラムベースのアプローチをトレーニング手順に組み込む。
複数のシナリオに対する並列トレーニングアプローチは、エージェントをいくつかのシナリオに偏りなくし、グリッド操作の自然変動に対して堅牢にするために使用される。
論文 参考訳(メタデータ) (2021-12-18T20:32:05Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Room Clearance with Feudal Hierarchical Reinforcement Learning [2.867517731896504]
本稿では,RL研究を軍事分析に有用な方向に進めるためのシナリオ構築ツールとして,新しいシミュレーション環境「it」を紹介した。
そこでは、青いエージェントのチームが建物を通り抜け、すべての部屋が敵のレッドエージェントから取り除かれるようにしなければなりません。
封建的階層型RLのマルチエージェント版を実装し、より上位の指揮官が命令を下級の複数のエージェントに送信するコマンド階層を導入する。
このような方法でタスクを壊すことで、私たちはそれを可能にすることに気付きました。
論文 参考訳(メタデータ) (2021-05-24T15:05:58Z) - Scalable Voltage Control using Structure-Driven Hierarchical Deep
Reinforcement Learning [0.0]
本稿では,新しい階層型深層強化学習(drl)による電力系統の電圧制御設計を提案する。
本研究では,電力系統の領域分割構造を利用して,大規模グリッドモデルに適用可能な階層型drl設計を提案する。
地域別分散型RLエージェントを訓練し、各エリアの低レベルポリシーを算出し、低レベルポリシーの更新を使用して低レベルエージェントが行う制御アクションを効率的に調整する高レベルDRLエージェントを同時トレーニングします。
論文 参考訳(メタデータ) (2021-01-29T21:30:59Z) - Hierarchical Reinforcement Learning for Relay Selection and Power
Optimization in Two-Hop Cooperative Relay Network [7.5377621697101205]
本研究では,2ホップ協調型中継ネットワークにおいて,送信電力の制約を考慮に入れた停止確率最小化問題について検討する。
我々は、リレー選択と配電のための戦略を学ぶために強化学習(RL)手法を用いる。
階層型強化学習(HRL)フレームワークとトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-10T04:47:41Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。