論文の概要: Real-Time Cascade Mitigation in Power Systems Using Influence Graph Improved by Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.08893v1
- Date: Tue, 10 Jun 2025 15:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.669641
- Title: Real-Time Cascade Mitigation in Power Systems Using Influence Graph Improved by Reinforcement Learning
- Title(参考訳): 強化学習による影響グラフを用いた電力系統のリアルタイムカスケード低減
- Authors: Kai Zhou, Youbiao He, Chong Zhong, Yifu Wu,
- Abstract要約: リアルタイムカスケードの緩和には、不確実性の下で高速で複雑な運用上の決定が必要である。
我々は、電力伝送システムにおけるカスケード障害のリアルタイム軽減のために、インフルエンスグラフを勾配決定プロセスモデル(MDP)に拡張する。
本稿では、未解決事例に対応するポリシーを持つポリシー学習アルゴリズムを提案し、不正行為を処理するように設計されている。
- 参考スコア(独自算出の注目度): 8.32974564694528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite high reliability, modern power systems with growing renewable penetration face an increasing risk of cascading outages. Real-time cascade mitigation requires fast, complex operational decisions under uncertainty. In this work, we extend the influence graph into a Markov decision process model (MDP) for real-time mitigation of cascading outages in power transmission systems, accounting for uncertainties in generation, load, and initial contingencies. The MDP includes a do-nothing action to allow for conservative decision-making and is solved using reinforcement learning. We present a policy gradient learning algorithm initialized with a policy corresponding to the unmitigated case and designed to handle invalid actions. The proposed learning method converges faster than the conventional algorithm. Through careful reward design, we learn a policy that takes conservative actions without deteriorating system conditions. The model is validated on the IEEE 14-bus and IEEE 118-bus systems. The results show that proactive line disconnections can effectively reduce cascading risk, and certain lines consistently emerge as critical in mitigating cascade propagation.
- Abstract(参考訳): 信頼性が高いにもかかわらず、再生可能エネルギーの浸透が増加する現代の電力システムは、カスケード障害のリスクが高まっている。
リアルタイムカスケードの緩和には、不確実性の下で高速で複雑な運用上の決定が必要である。
本研究では、電力伝送システムにおけるカスケード障害をリアルタイムに軽減するための影響グラフをマルコフ決定プロセスモデル(MDP)に拡張する。
MDPには保守的な意思決定を可能にするドース行動が含まれており、強化学習を用いて解決される。
本稿では、未解決事例に対応するポリシーを初期化して、不正行為を処理するためのポリシー勾配学習アルゴリズムを提案する。
提案手法は従来のアルゴリズムよりも高速に収束する。
注意深い報酬設計を通じて、システム条件を悪化させることなく保守的な行動を取る政策を学ぶ。
このモデルはIEEE 14-busとIEEE 118-busシステムで検証されている。
その結果, 能動線断線はカスケードのリスクを効果的に低減し, カスケード伝播を緩和するためには, 一定の線が不可欠であることが示唆された。
関連論文リスト
- Deep Reinforcement Learning for Power Grid Multi-Stage Cascading Failure Mitigation [1.8775413720750922]
電力網のカスケード故障は、社会活動や経済活動に深刻な混乱をもたらす可能性がある。
既存のカスケード障害軽減戦略は、通常、単一ステージベースであり、多ステージシナリオの複雑さを見下ろしている。
本稿では,多段階カスケード故障問題を強化学習課題として扱い,シミュレーション環境を開発する。
論文 参考訳(メタデータ) (2025-05-13T23:01:34Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Privacy-Preserving Distributed Learning for Residential Short-Term Load
Forecasting [11.185176107646956]
電力システムの負荷データは、住宅ユーザの日常のルーチンを不注意に明らかにし、彼らの財産のセキュリティにリスクを及ぼす可能性がある。
我々はマルコフスイッチ方式の分散学習フレームワークを導入し、その収束は厳密な理論的解析によって実証される。
実世界の電力系統負荷データを用いたケーススタディにより,提案アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2024-02-02T16:39:08Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Networked Online Learning for Control of Safety-Critical
Resource-Constrained Systems based on Gaussian Processes [9.544146562919792]
本稿では,ガウス過程の回帰に基づく新しいネットワーク型オンライン学習手法を提案する。
本稿では,送信チャネルの帯域制限と時間遅延を考慮した,ローカルシステムとクラウド間の効率的なデータ伝送方式を提案する。
論文 参考訳(メタデータ) (2022-02-23T13:12:12Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Accelerating Deep Reinforcement Learning With the Aid of Partial Model:
Energy-Efficient Predictive Video Streaming [97.75330397207742]
深層強化学習を用いて,モバイルネットワーク上でのエネルギー効率の高いビデオストリーミングのための予測電力割り当てを考案した。
連続状態と行動空間を扱うために、我々はDeep Deterministic Policy gradient (DDPG)アルゴリズムを利用する。
シミュレーションの結果,提案手法は完全大規模チャネル予測に基づいて導出される最適方針に収束することが示された。
論文 参考訳(メタデータ) (2020-03-21T17:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。