論文の概要: An adaptive safety layer with hard constraints for safe reinforcement
learning in multi-energy management systems
- arxiv url: http://arxiv.org/abs/2304.08897v2
- Date: Mon, 5 Jun 2023 11:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 02:00:02.710858
- Title: An adaptive safety layer with hard constraints for safe reinforcement
learning in multi-energy management systems
- Title(参考訳): 多エネルギー管理システムにおける安全強化学習のためのハード制約付き適応安全層
- Authors: Glenn Ceusters, Muhammad Andy Putratama, R\"udiger Franke, Ann Now\'e,
Maarten Messagie
- Abstract要約: 厳しい制約を保証した安全強化学習は、多エネルギー管理システムにとって有望な最適制御方向である。
I) Optlayer と SafeFallback メソッドを組み合わせた OptLayerPolicy を併用して,サンプル効率を高く保ちながら初期利用率を高める。
シミュレーションマルチエネルギーシステムを用いたケーススタディでは,初期効用は86.1% (OptLayerPolicy) に対して92.4% (OptLayerPolicy) に増加し,訓練後の政策は103.4% (OptLayer) に対して104.9% (GreyOptLayerPolicy) に増加した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Safe reinforcement learning (RL) with hard constraint guarantees is a
promising optimal control direction for multi-energy management systems. It
only requires the environment-specific constraint functions itself a priori and
not a complete model (i.e. plant, disturbance and noise models, and prediction
models for states not included in the plant model - e.g. demand forecasts,
weather forecasts, price forecasts). The project-specific upfront and ongoing
engineering efforts are therefore still reduced, better representations of the
underlying system dynamics can still be learned and modelling bias is kept to a
minimum (no model-based objective function). However, even the constraint
functions alone are not always trivial to accurately provide in advance,
leading to potentially unsafe behaviour. In this paper, we present two novel
advancements: (I) combining the Optlayer and SafeFallback method, named
OptLayerPolicy, to increase the initial utility while keeping a high sample
efficiency. (II) introducing self-improving hard constraints, to increase the
accuracy of the constraint functions as more data becomes available so that
better policies can be learned. Both advancements keep the constraint
formulation decoupled from the RL formulation, so that new (presumably better)
RL algorithms can act as drop-in replacements. We have shown that, in a
simulated multi-energy system case study, the initial utility is increased to
92.4% (OptLayerPolicy) compared to 86.1% (OptLayer) and that the policy after
training is increased to 104.9% (GreyOptLayerPolicy) compared to 103.4%
(OptLayer) - all relative to a vanilla RL benchmark. While introducing
surrogate functions into the optimization problem requires special attention,
we do conclude that the newly presented GreyOptLayerPolicy method is the most
advantageous.
- Abstract(参考訳): ハード制約付き安全強化学習(rl)は、マルチエネルギ管理システムの最適制御方向として有望である。
環境固有の制約関数自体を、完全なモデル(植物、乱れ、騒音モデル、プラントモデルに含まれない状態(需要予測、天気予報、価格予測など)の予測モデル)ではなく、事前の制約関数のみを必要とする。
それゆえ、プロジェクト固有の事前および進行中のエンジニアリング努力は依然として削減され、基盤となるシステムダイナミクスのより良い表現は依然として学習でき、モデリングバイアスは最小限(モデルベースの客観的関数なし)に保たれます。
しかし、制約関数だけであっても、事前に正確に提供することは必ずしも簡単ではないため、潜在的に安全でない振る舞いにつながる。
本稿では, (I) Optlayer と SafeFallback を併用した OptLayerPolicy という新しい手法を提案する。
(ii)より多くのデータが利用可能になるにつれて、制約関数の精度を高めるために、自己改善的な制約を導入すること。
どちらの進歩も制約の定式化をRL定式化から切り離すことを保ち、新しい(おそらくより良い)RLアルゴリズムがドロップイン置換として機能できるようにしている。
シミュレーションによるマルチエネルギーシステムのケーススタディでは,初期効用は86.1% (OptLayerPolicy) に対して92.4% (OptLayerPolicy) に増加し,訓練後の政策は104.9% (GreyOptLayerPolicy) に,バニラRLベンチマークと比較して103.4% (OptLayer) に増加した。
最適化問題にサロゲート関数を導入するには特に注意が必要であるが,新たに提示したgreyoptlayerpolicy法が最も有利であると結論する。
関連論文リスト
- Offline RL via Feature-Occupancy Gradient Ascent [9.983014605039658]
大規模無限水平割引マルコフ決定過程(MDP)におけるオフライン強化学習の研究
我々は,特徴占有空間における勾配上昇の形式を実行する新しいアルゴリズムを開発した。
結果として得られた単純なアルゴリズムは、強い計算とサンプルの複雑さの保証を満たすことを示す。
論文 参考訳(メタデータ) (2024-05-22T15:39:05Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Safe reinforcement learning for multi-energy management systems with
known constraint functions [0.0]
強化学習(Reinforcement Learning, RL)は, 多エネルギー管理システムにおける最適制御手法である。
我々はSafeFallbackとGiveSafeという2つの新しい安全なRL手法を提案する。
シミュレーションされたマルチエネルギーシステムのケーススタディでは、どちらの手法も非常に高い実用性から始めることを示した。
論文 参考訳(メタデータ) (2022-07-08T11:33:53Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Enforcing Policy Feasibility Constraints through Differentiable
Projection for Energy Optimization [57.88118988775461]
本稿では,ニューラルポリシー内での凸操作制約を強制するために,PROF(Projected Feasibility)を提案する。
エネルギー効率の高い建築操作とインバータ制御の2つの応用についてPROFを実証する。
論文 参考訳(メタデータ) (2021-05-19T01:58:10Z) - First Order Constrained Optimization in Policy Space [19.00289722198614]
政策空間における一階制約最適化(FOCOPS)という新しい手法を提案する。
FOCOPSは、エージェントの全体的な報酬を最大化し、エージェントが一連のコスト制約を満たすことを保証します。
我々は,ロボット機関車の一連の作業において,簡単なアプローチがより良い性能を達成するという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2020-02-16T05:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。