論文の概要: Enforcing Policy Feasibility Constraints through Differentiable
Projection for Energy Optimization
- arxiv url: http://arxiv.org/abs/2105.08881v1
- Date: Wed, 19 May 2021 01:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 20:38:04.532736
- Title: Enforcing Policy Feasibility Constraints through Differentiable
Projection for Energy Optimization
- Title(参考訳): エネルギー最適化のための微分射影による政策可能性制約の実施
- Authors: Bingqing Chen, Priya Donti, Kyri Baker, J. Zico Kolter, Mario Berges
- Abstract要約: 本稿では,ニューラルポリシー内での凸操作制約を強制するために,PROF(Projected Feasibility)を提案する。
エネルギー効率の高い建築操作とインバータ制御の2つの応用についてPROFを実証する。
- 参考スコア(独自算出の注目度): 57.88118988775461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While reinforcement learning (RL) is gaining popularity in energy systems
control, its real-world applications are limited due to the fact that the
actions from learned policies may not satisfy functional requirements or be
feasible for the underlying physical system. In this work, we propose PROjected
Feasibility (PROF), a method to enforce convex operational constraints within
neural policies. Specifically, we incorporate a differentiable projection layer
within a neural network-based policy to enforce that all learned actions are
feasible. We then update the policy end-to-end by propagating gradients through
this differentiable projection layer, making the policy cognizant of the
operational constraints. We demonstrate our method on two applications:
energy-efficient building operation and inverter control. In the building
operation setting, we show that PROF maintains thermal comfort requirements
while improving energy efficiency by 4% over state-of-the-art methods. In the
inverter control setting, PROF perfectly satisfies voltage constraints on the
IEEE 37-bus feeder system, as it learns to curtail as little renewable energy
as possible within its safety set.
- Abstract(参考訳): 強化学習(RL)はエネルギーシステム制御において人気が高まりつつあるが、その実世界の応用は、学習方針からのアクションが機能要件を満たしていないり、基礎となる物理システムに対して実現可能であるため限られている。
本研究では,ニューラルポリシー内での凸操作制約を強制する方法であるProjected Feasibility (PROF)を提案する。
具体的には、ニューラルネットワークベースのポリシに微分可能な投影層を組み込んで、すべての学習アクションが実現可能であることを強制します。
次に、この微分可能な投影層を通して勾配を伝播することで、ポリシーをエンドツーエンドに更新し、ポリシーを運用上の制約を認識します。
本手法は,エネルギー効率の高い建築操作とインバータ制御の2つの応用について実証する。
建築作業環境において,PROFは熱的快適性を保ちながら,最先端手法よりもエネルギー効率を4%向上することを示した。
インバータ制御設定では、PRFはIEEE 37バス供給システムの電圧制約を完全に満たし、安全セット内で可能な限り再生可能エネルギーを削減できるように学習する。
関連論文リスト
- A Safe Reinforcement Learning Algorithm for Supervisory Control of Power
Plants [7.1771300511732585]
モデルフリー強化学習(RL)は、制御タスクのための有望なソリューションとして登場した。
本稿では,監督制御のための近似ポリシ最適化に基づく確率制約付きRLアルゴリズムを提案する。
本手法は, 原子力プラント設計における負荷追従操作において, 違反距離と違反率の最小化を実現するものである。
論文 参考訳(メタデータ) (2024-01-23T17:52:49Z) - An adaptive safety layer with hard constraints for safe reinforcement
learning in multi-energy management systems [0.0]
厳しい制約を保証した安全強化学習は、多エネルギー管理システムにとって有望な最適制御方向である。
I) OptLayerPolicy という OptLayer メソッドと SafeFallback メソッドを組み合わせて初期利用率を高める。
シミュレーションマルチエネルギーシステムを用いたケーススタディでは,初期効用は86.1% (OptLayerPolicy) に対して92.4% (OptLayerPolicy) に増加し,訓練後の政策は103.4% (OptLayer) に対して104.9% (GreyOptLayerPolicy) に増加した。
論文 参考訳(メタデータ) (2023-04-18T10:52:16Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Data-Driven Stochastic AC-OPF using Gaussian Processes [54.94701604030199]
大量の再生可能エネルギーを電力網に統合することは、おそらく気候変動を遅らせる電力網からの二酸化炭素排出量を減らす最も有効な方法だろう。
本稿では、不確実な入力を組み込むことのできる交流電力流方程式に基づく代替データ駆動方式を提案する。
GPアプローチは、このギャップを交流電力流方程式に閉じるために、単純だが制約のないデータ駆動アプローチを学ぶ。
論文 参考訳(メタデータ) (2022-07-21T23:02:35Z) - Adversarially Robust Learning for Security-Constrained Optimal Power
Flow [55.816266355623085]
我々は、N-kセキュリティ制約付き最適電力流(SCOPF)の課題に取り組む。
N-k SCOPFは電力網の運用における中核的な問題である。
N-k SCOPF を極小最適化問題とみなす。
論文 参考訳(メタデータ) (2021-11-12T22:08:10Z) - Action Set Based Policy Optimization for Safe Power Grid Management [8.156111849078439]
電力グリッド管理のシーケンシャルな意思決定のために強化学習(RL)が採用されている。
本稿では,探索に基づく計画アルゴリズム上に構築された新しい手法を提案する。
NeurIPS 2020 Learning to Run Power Network (L2RPN)コンペで、我々のソリューションは安全に電力網を管理し、両トラックで第1位となった。
論文 参考訳(メタデータ) (2021-06-29T09:36:36Z) - Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。
我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。
ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文 参考訳(メタデータ) (2021-06-03T16:45:40Z) - Delayed Q-update: A novel credit assignment technique for deriving an
optimal operation policy for the Grid-Connected Microgrid [3.3754780158324564]
本稿では,新しいクレジット代入手法である遅延Q更新を用いて,望ましいマイクログリッド動作ポリシーを導出する手法を提案する。
この技術は、マイクログリッドの遅延有効性に取り組み、解決する能力などの新しい特徴を取り入れている。
高度に制御されたマイクログリッド環境下での準最適操作ポリシーの探索を支援する。
論文 参考訳(メタデータ) (2020-06-30T10:30:15Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。