Fugu-MT 論文翻訳(概要): Hierarchical Reinforcement Learning with Runtime Safety Shielding for Power Grid Operation

論文の概要: Hierarchical Reinforcement Learning with Runtime Safety Shielding for Power Grid Operation

arxiv url: http://arxiv.org/abs/2604.14032v1
Date: Wed, 15 Apr 2026 16:11:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-16 20:38:32.628902
Title: Hierarchical Reinforcement Learning with Runtime Safety Shielding for Power Grid Operation
Title（参考訳）: 電力グリッド運用のための実行時安全シールドを用いた階層強化学習
Authors: Gitesh Malik,
Abstract要約: 本稿では,電力グリッド運用のための安全制約付き階層制御フレームワークを提案する。高レベルの強化学習ポリシは抽象的な制御アクションを提案し、決定論的ランタイム安全シールドは安全でないアクションをフィルタリングする。その結果, 平坦な強化学習政策はストレス下で脆弱であり, 安全性のみの手法は過度に保守的であることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning has shown promise for automating power-grid operation tasks such as topology control and congestion management. However, its deployment in real-world power systems remains limited by strict safety requirements, brittleness under rare disturbances, and poor generalization to unseen grid topologies. In safety-critical infrastructure, catastrophic failures cannot be tolerated, and learning-based controllers must operate within hard physical constraints. This paper proposes a safety-constrained hierarchical control framework for power-grid operation that explicitly decouples long-horizon decision-making from real-time feasibility enforcement. A high-level reinforcement learning policy proposes abstract control actions, while a deterministic runtime safety shield filters unsafe actions using fast forward simulation. Safety is enforced as a runtime invariant, independent of policy quality or training distribution. The proposed framework is evaluated on the Grid2Op benchmark suite under nominal conditions, forced line-outage stress tests, and zero-shot deployment on the ICAPS 2021 large-scale transmission grid without retraining. Results show that flat reinforcement learning policies are brittle under stress, while safety-only methods are overly conservative. In contrast, the proposed hierarchical and safety-aware approach achieves longer episode survival, lower peak line loading, and robust zero-shot generalization to unseen grids. These results indicate that safety and generalization in power-grid control are best achieved through architectural design rather than increasingly complex reward engineering, providing a practical path toward deployable learning-based controllers for real-world energy systems.
Abstract（参考訳）: 強化学習は、トポロジー制御や渋滞管理といったパワーグリッド操作タスクを自動化することを約束している。しかし、現実世界の電力システムへの展開は、厳格な安全要件、まれな乱れの下での脆さ、そして目に見えないグリッドトポロジへの一般化に制限されている。安全クリティカルなインフラストラクチャでは、破滅的な障害を許容することはできず、学習ベースのコントローラは厳しい物理的制約の中で動作しなければなりません。本稿では,リアルタイムの実現可能性向上から長期的意思決定を明確に切り離した電力グリッド運用のための安全制約付き階層型制御フレームワークを提案する。高レベルの強化学習ポリシは抽象的な制御アクションを提案し、決定論的ランタイム安全シールドは高速フォワードシミュレーションを用いて安全でないアクションをフィルタリングする。安全は、政策品質やトレーニングディストリビューションとは独立して、実行時不変として強制される。提案するフレームワークは、Grid2Opベンチマークスイート上で、命名条件、強制ライン停止ストレステスト、ICAPS 2021大規模送電網へのゼロショット展開を再訓練せずに評価する。その結果, 平坦な強化学習政策はストレス下で脆弱であり, 安全性のみの手法は過度に保守的であることがわかった。対照的に、提案する階層的かつ安全性に配慮したアプローチは、長いエピソードサバイバル、低いピークラインローディング、そして、目に見えないグリッドへのロバストなゼロショット一般化を実現する。これらの結果から、電力グリッド制御の安全性と一般化は、より複雑な報奨工学よりもアーキテクチャ設計によって達成され、現実のエネルギーシステムのためのデプロイ可能な学習ベースコントローラへの実践的な道のりとなることが示唆された。

関連論文リスト

Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-12T22:03:35Z)
UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文参考訳（メタデータ） (2025-10-02T16:43:33Z)
Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [51.736723807086385]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文参考訳（メタデータ） (2025-08-01T13:55:39Z)
Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters [0.0]
強化学習は複雑なシナリオに適応するためにますます使われていますが、安全性と安定性を保証するための標準フレームワークは欠如しています。予測安全フィルタ(PSF)は、明示的な制約処理を伴わずに、学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。
論文参考訳（メタデータ） (2023-12-04T12:37:54Z)
Safety Correction from Baseline: Towards the Risk-aware Policy in Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文参考訳（メタデータ） (2022-12-14T03:11:25Z)
Contingency-constrained economic dispatch with safe reinforcement learning [7.133681867718039]
強化学習ベース(RL)コントローラはこの課題に対処できるが、それ自体が安全保証を提供することはできない。本稿では,経済派遣のための公式なRLコントローラを提案する。従来の制約を時間依存制約によって拡張する。安全でないアクションは安全なアクション空間に投影され、制約付きゾノトペ集合表現を計算効率に活用する。
論文参考訳（メタデータ） (2022-05-12T16:52:48Z)
Model-Based Safe Reinforcement Learning with Time-Varying State and Control Constraints: An Application to Intelligent Vehicles [13.40143623056186]
本稿では、時間変化状態と制御制約を持つ非線形システムの最適制御のための安全なRLアルゴリズムを提案する。多段階の政策評価機構が提案され、時間変化による安全制約の下での政策の安全性リスクを予測し、安全更新を誘導する。提案アルゴリズムは、シミュレーションされたセーフティガイム環境において、最先端のRLアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2021-12-18T10:45:31Z)
Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文参考訳（メタデータ） (2020-11-16T17:14:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。