論文の概要: Heterogeneous Multi-Agent Proximal Policy Optimization for Power Distribution System Restoration
- arxiv url: http://arxiv.org/abs/2511.14730v1
- Date: Tue, 18 Nov 2025 18:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.257299
- Title: Heterogeneous Multi-Agent Proximal Policy Optimization for Power Distribution System Restoration
- Title(参考訳): 配電系統の復旧のための不均一なマルチエージェント近似ポリシ最適化
- Authors: Parya Dolatyabi, Mahdi Khodayar,
- Abstract要約: 本稿では, 相互接続したマイクログリッド間の協調修復を実現するために, 不均一・エージェント強化学習フレームワークを適用した。
その結果、HARLフレームワークにマイクログリッドレベルの不均一性を組み込むことで、複雑なPSD修復のためのスケーラブルで安定で制約対応のソリューションが得られることが示された。
- 参考スコア(独自算出の注目度): 5.014680787613772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Restoring power distribution systems (PDS) after large-scale outages requires sequential switching operations that reconfigure feeder topology and coordinate distributed energy resources (DERs) under nonlinear constraints such as power balance, voltage limits, and thermal ratings. These challenges make conventional optimization and value-based RL approaches computationally inefficient and difficult to scale. This paper applies a Heterogeneous-Agent Reinforcement Learning (HARL) framework, instantiated through Heterogeneous-Agent Proximal Policy Optimization (HAPPO), to enable coordinated restoration across interconnected microgrids. Each agent controls a distinct microgrid with different loads, DER capacities, and switch counts, introducing practical structural heterogeneity. Decentralized actor policies are trained with a centralized critic to compute advantage values for stable on-policy updates. A physics-informed OpenDSS environment provides full power flow feedback and enforces operational limits via differentiable penalty signals rather than invalid action masking. The total DER generation is capped at 2400 kW, and each microgrid must satisfy local supply-demand feasibility. Experiments on the IEEE 123-bus and IEEE 8500-node systems show that HAPPO achieves faster convergence, higher restored power, and smoother multi-seed training than DQN, PPO, MAES, MAGDPG, MADQN, Mean-Field RL, and QMIX. Results demonstrate that incorporating microgrid-level heterogeneity within the HARL framework yields a scalable, stable, and constraint-aware solution for complex PDS restoration.
- Abstract(参考訳): 大規模停電後の電力供給システム(PDS)の復旧には、電力収支、電圧制限、熱評価などの非線形制約の下で、供給源のトポロジーを再構成し、分散エネルギー資源(DER)を調整するシーケンシャル・スイッチング・オペレーションが必要である。
これらの課題は、従来の最適化と値ベースのRLアプローチを計算的に非効率でスケールが難しいものにしている。
本稿では,HAPPO(Heterogeneous-Agent Proximal Policy Optimization)を通じてインスタンス化されたHARL(Heterogeneous-Agent Reinforcement Learning)フレームワークを適用し,相互接続したマイクログリッド間の協調修復を可能にする。
各エージェントは、異なる負荷、DER容量、スイッチ数を持つ異なるマイクログリッドを制御し、実用的な構造的不均一性を導入する。
分散型アクターポリシーは、中央集権的な批評家によって訓練され、安定したオン・ポリティクスの更新のために有利な値を計算する。
物理インフォームドされたOpenDSS環境は、フルパワーフローフィードバックを提供し、無効なアクションマスキングではなく、識別可能なペナルティ信号を介して運用制限を強制する。
DER総生成量は2400kWで、各マイクログリッドは局所的な需給実現可能性を満たす必要がある。
IEEE 123-bus と IEEE 8500-node システムの実験により、HAPPO は DQN, PPO, MAES, MAGDPG, MADQN, Mean-Field RL, QMIX よりも高速な収束、高回復力、スムーズなマルチシードトレーニングを実現している。
その結果、HARLフレームワークにマイクログリッドレベルの不均一性を組み込むことで、複雑なPSD修復のためのスケーラブルで安定で制約対応のソリューションが得られることが示された。
関連論文リスト
- PowerGrow: Feasible Co-Growth of Structures and Dynamics for Power Grid Synthesis [75.14189839277928]
本稿では,運用効率を維持しながら計算オーバーヘッドを大幅に削減する,共同生成フレームワークPowerGrowを提案する。
ベンチマーク設定による実験では、PowerGrowはフィデリティと多様性において、事前の拡散モデルよりも優れていた。
これは、運用上有効で現実的な電力グリッドシナリオを生成する能力を示している。
論文 参考訳(メタデータ) (2025-08-29T01:47:27Z) - GEPO: Group Expectation Policy Optimization for Stable Heterogeneous Reinforcement Learning [43.46954951944727]
パラメータ学習とロールアウトサンプリングを分離する異種RLアーキテクチャであるHeteroRLを提案する。
コアコンポーネントは、レイテンシに堅牢な非同期RLアルゴリズムであるグループ期待ポリシー最適化(GEPO)である。
GEPOが優れた安定性を実現していることを示す実験は、オンラインから1800年代のレイテンシまで、わずか3%のパフォーマンス低下である。
論文 参考訳(メタデータ) (2025-08-25T09:57:35Z) - Grid-Agent: An LLM-Powered Multi-Agent System for Power Grid Control [4.3210078529580045]
本稿では、グリッド違反を検出し、修正する自律型AI駆動フレームワークであるGrid-Agentを紹介する。
Grid-Agentは、意味論的推論とモジュラーエージェントによる数値的精度を統合する。
IEEEおよびCIGREベンチマークネットワークの実験は、優れた緩和性能を示す。
論文 参考訳(メタデータ) (2025-08-07T01:10:28Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。