論文の概要: Safe reinforcement learning for multi-energy management systems with
known constraint functions
- arxiv url: http://arxiv.org/abs/2207.03830v1
- Date: Fri, 8 Jul 2022 11:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 13:28:28.381360
- Title: Safe reinforcement learning for multi-energy management systems with
known constraint functions
- Title(参考訳): 既知の制約機能を有するマルチエネルギー管理システムのための安全強化学習
- Authors: Glenn Ceusters, Luis Ramirez Camargo, R\"udiger Franke, Ann Now\'e,
Maarten Messagie
- Abstract要約: 強化学習(Reinforcement Learning, RL)は, 多エネルギー管理システムにおける最適制御手法である。
我々はSafeFallbackとGiveSafeという2つの新しい安全なRL手法を提案する。
シミュレーションされたマルチエネルギーシステムのケーススタディでは、どちらの手法も非常に高い実用性から始めることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning (RL) is a promising optimal control technique for
multi-energy management systems. It does not require a model a priori -
reducing the upfront and ongoing project-specific engineering effort and is
capable of learning better representations of the underlying system dynamics.
However, vanilla RL does not provide constraint satisfaction guarantees -
resulting in various unsafe interactions within its safety-critical
environment. In this paper, we present two novel safe RL methods, namely
SafeFallback and GiveSafe, where the safety constraint formulation is decoupled
from the RL formulation and which provides hard-constraint satisfaction
guarantees both during training (exploration) and exploitation of the
(close-to) optimal policy. In a simulated multi-energy systems case study we
have shown that both methods start with a significantly higher utility (i.e.
useful policy) compared to a vanilla RL benchmark (94,6% and 82,8% compared to
35,5%) and that the proposed SafeFallback method even can outperform the
vanilla RL benchmark (102,9% to 100%). We conclude that both methods are viably
safety constraint handling techniques capable beyond RL, as demonstrated with
random agents while still providing hard-constraint guarantees. Finally, we
propose fundamental future work to i.a. improve the constraint functions itself
as more data becomes available.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 多エネルギー管理システムにおける最適制御手法である。
事前および進行中のプロジェクト固有のエンジニアリング作業を優先するモデルを必要としないため、基盤となるシステムダイナミクスの表現をより良く学習することができる。
しかし、バニラrlはその安全-クリティカルな環境での様々な安全でない相互作用における制約満足度保証を提供していない。
本稿では、安全制約の定式化をRL定式化から切り離し、トレーニング(探索)と(近接)最適ポリシーの活用の両面でハードコントラスト満足度を保証する2つの新しい安全RL手法、SafeFallbackとGiveSafeを提案する。
シミュレーションによるマルチエネルギシステムのケーススタディでは,両手法がバニラrlベンチマーク(94,6%,82,8%,35,5%)と比較して極めて高い実用性(すなわち有用なポリシ)から始まり,提案手法がバニラrlベンチマーク(102,9%から100%)を上回ることさえ示されている。
いずれの手法もRLを超越した安全制約処理技術であり, 厳密な保証を提供しながら, ランダムエージェントを用いて実証した。
最後に、より多くのデータが利用可能になるにつれて制約関数自体を改善するための基本的な将来の作業を提案する。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Safety Optimized Reinforcement Learning via Multi-Objective Policy
Optimization [3.425378723819911]
セーフ強化学習(Safe reinforcement learning, Safe RL)とは、RLアルゴリズムが制約を犯すのを防ぐ技術である。
本稿では,多目的ポリシー最適化フレームワークに基づく新しいモデルフリーなSafe RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:58:38Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Provably Safe Reinforcement Learning: Conceptual Analysis, Survey, and
Benchmarking [12.719948223824483]
強化学習(RL)アルゴリズムは、多くの現実世界のタスクにおいて、その潜在能力を解き放つために不可欠である。
しかしながら、バニラRLと最も安全なRLアプローチは安全性を保証するものではない。
本稿では,既存の安全なRL手法の分類を導入し,連続的および離散的な動作空間の概念的基礎を提示し,既存の手法を実証的にベンチマークする。
本稿では、安全仕様、RLアルゴリズム、アクション空間の種類に応じて、確実に安全なRLアプローチを選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2022-05-13T16:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。