論文の概要: Physics Informed Reinforcement Learning with Gibbs Priors for Topology Control in Power Grids
- arxiv url: http://arxiv.org/abs/2604.01830v1
- Date: Thu, 02 Apr 2026 09:45:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.635527
- Title: Physics Informed Reinforcement Learning with Gibbs Priors for Topology Control in Power Grids
- Title(参考訳): 電力グリッドのトポロジー制御のためのギブ前処理による物理インフォームド強化学習
- Authors: Pantelis Dogoulis, Maxime Cordy,
- Abstract要約: 電力グリッド運用のためのトポロジ制御は、困難なシーケンシャルな意思決定問題である。
動作空間上のシステムの物理をエンコードする物理インフォームド強化学習フレームワークを提案する。
本手法を3つの現実的なベンチマーク環境で評価し,難易度を高めた。
- 参考スコア(独自算出の注目度): 11.77206222026137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topology control for power grid operation is a challenging sequential decision making problem because the action space grows combinatorially with the size of the grid and action evaluation through simulation is computationally expensive. We propose a physics-informed Reinforcement Learning framework that combines semi-Markov control with a Gibbs prior, that encodes the system's physics, over the action space. The decision is only taken when the grid enters a hazardous regime, while a graph neural network surrogate predicts the post action overload risk of feasible topology actions. These predictions are used to construct a physics-informed Gibbs prior that both selects a small state-dependent candidate set and reweights policy logits before action selection. In this way, our method reduces exploration difficulty and online simulation cost while preserving the flexibility of a learned policy. We evaluate the approach in three realistic benchmark environments of increasing difficulty. Across all settings, the proposed method achieves a strong balance between control quality and computational efficiency: it matches oracle-level performance while being approximately $6\times$ faster on the first benchmark, reaches $94.6\%$ of oracle reward with roughly $200\times$ lower decision time on the second one, and on the most challenging benchmark improves over a PPO baseline by up to $255\%$ in reward and $284\%$ in survived steps while remaining about $2.5\times$ faster than a strong specialized engineering baseline. These results show that our method provides an effective mechanism for topology control in power grids.
- Abstract(参考訳): 動作空間はグリッドの大きさと組み合わせて成長し,シミュレーションによる動作評価は計算コストがかかるため,電力グリッド動作のトポロジ制御は困難な逐次決定問題である。
本稿では,半マルコフ制御とギブズ事前制御を組み合わせた物理インフォームド強化学習フレームワークを提案する。
この決定は、グリッドが危険な状態に入るときにのみ行われるが、グラフニューラルネットワークのサロゲートは、実行可能なトポロジアクションのポストアクション過負荷リスクを予測する。
これらの予測は、それぞれが小さな状態依存の候補セットを選択し、アクション選択の前にポリシーロジットを再重み付けする、物理学インフォームドギブスを構築するために使用される。
このようにして、学習ポリシーの柔軟性を維持しつつ、探索の困難さとオンラインシミュレーションコストを低減する。
本手法を3つの現実的なベンチマーク環境で評価し,難易度を高めた。
すべての設定において、提案手法は、制御品質と計算効率のバランスを保ちながら、約6\times$速さでオラクルレベルの性能と一致し、約$94.6\%のオラクル報酬を約$200\times$低判定時間で達成し、最も難しいベンチマークではPPOベースライン上で最大255\%の報酬と284\%のサバイバルステップで改善し、2.5\times$強専門エンジニアリングベースラインよりも高速に維持する。
これらの結果から,電力グリッドのトポロジ制御に有効なメカニズムが得られた。
関連論文リスト
- Drift Control of High-Dimensional RBM: A Computational Method Based on Neural Networks [4.540236408836132]
我々は、ディープニューラルネットワーク技術に大きく依存するシミュレーションベースの計算手法を開発し、解説する。
これまでに検討したテスト問題では,提案手法は1パーセント以内の精度で,少なくとも$d=30$の次元で計算可能であった。
論文 参考訳(メタデータ) (2023-09-20T21:32:58Z) - TransPath: Learning Heuristics For Grid-Based Pathfinding via
Transformers [64.88759709443819]
探索の効率を顕著に向上させると考えられる,インスタンス依存のプロキシを学習することを提案する。
私たちが最初に学ぶことを提案するプロキシは、補正係数、すなわち、インスタンスに依存しないコスト・ツー・ゴの見積もりと完璧な見積もりの比率である。
第2のプロキシはパス確率であり、グリッドセルが最も短いパスに横たわっている可能性を示している。
論文 参考訳(メタデータ) (2022-12-22T14:26:11Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Deep $\mathcal{L}^1$ Stochastic Optimal Control Policies for Planetary
Soft-landing [9.714390258486569]
本稿では,PDG(Powered-Descent Guidance)問題に対する新たなディープラーニングベースのソリューションを提案する。
我々のSOCは、最小限の燃料消費のために予め規定された$mathcalL1制約を実質的に扱える。
制御器は燃料消費を最小限に抑えつつ、逆円錐の底部に全軌道を安全に着陸させることができることを実証した。
論文 参考訳(メタデータ) (2021-09-01T04:28:38Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文 参考訳(メタデータ) (2020-07-13T20:44:15Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。