Fugu-MT 論文翻訳(概要): An adaptive safety layer with hard constraints for safe reinforcement learning in multi-energy management systems

論文の概要: An adaptive safety layer with hard constraints for safe reinforcement learning in multi-energy management systems

arxiv url: http://arxiv.org/abs/2304.08897v3
Date: Mon, 6 Nov 2023 08:27:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 23:07:20.523283
Title: An adaptive safety layer with hard constraints for safe reinforcement learning in multi-energy management systems
Title（参考訳）: 多エネルギー管理システムにおける安全強化学習のためのハード制約付き適応安全層
Authors: Glenn Ceusters, Muhammad Andy Putratama, R\"udiger Franke, Ann Now\'e, Maarten Messagie
Abstract要約: 厳しい制約を保証した安全強化学習は、多エネルギー管理システムにとって有望な最適制御方向である。 I) OptLayerPolicy という OptLayer メソッドと SafeFallback メソッドを組み合わせて初期利用率を高める。シミュレーションマルチエネルギーシステムを用いたケーススタディでは,初期効用は86.1% (OptLayerPolicy) に対して92.4% (OptLayerPolicy) に増加し,訓練後の政策は103.4% (OptLayer) に対して104.9% (GreyOptLayerPolicy) に増加した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Safe reinforcement learning (RL) with hard constraint guarantees is a promising optimal control direction for multi-energy management systems. It only requires the environment-specific constraint functions itself a priori and not a complete model. The project-specific upfront and ongoing engineering efforts are therefore still reduced, better representations of the underlying system dynamics can still be learnt, and modelling bias is kept to a minimum. However, even the constraint functions alone are not always trivial to accurately provide in advance, leading to potentially unsafe behaviour. In this paper, we present two novel advancements: (I) combining the OptLayer and SafeFallback method, named OptLayerPolicy, to increase the initial utility while keeping a high sample efficiency and the possibility to formulate equality constraints. (II) introducing self-improving hard constraints, to increase the accuracy of the constraint functions as more and new data becomes available so that better policies can be learnt. Both advancements keep the constraint formulation decoupled from the RL formulation, so new (presumably better) RL algorithms can act as drop-in replacements. We have shown that, in a simulated multi-energy system case study, the initial utility is increased to 92.4% (OptLayerPolicy) compared to 86.1% (OptLayer) and that the policy after training is increased to 104.9% (GreyOptLayerPolicy) compared to 103.4% (OptLayer) - all relative to a vanilla RL benchmark. Although introducing surrogate functions into the optimisation problem requires special attention, we conclude that the newly presented GreyOptLayerPolicy method is the most advantageous.
Abstract（参考訳）: ハード制約付き安全強化学習(rl)は、マルチエネルギ管理システムの最適制御方向として有望である。環境固有の制約関数自体が優先順位であり、完全なモデルではない。そのため、プロジェクト固有の事前および進行中のエンジニアリング作業は引き続き削減され、基礎となるシステムダイナミクスのより良い表現は依然として学習され、モデリングバイアスは最小限に抑えられます。しかし、制約関数だけであっても、事前に正確に提供することは必ずしも簡単ではないため、潜在的に安全でない振る舞いにつながる。本稿では, サンプル効率が高く, 等式制約を定式化する可能性を維持しつつ, 初期有用性を高めるために, オプトレイヤー法とセーフフォールバック法を組み合わせた2つの新しい手法を提案する。 (II) 自己改善型制約を導入し, 制約関数の精度を向上し, 新たなデータが利用可能になり, より良いポリシーを学習できるようにする。どちらの進歩も制約の定式化をRLの定式化から切り離しているため、新しい(おそらくはより良い)RLアルゴリズムはドロップイン置換として機能する。シミュレーションによるマルチエネルギーシステムのケーススタディでは,初期効用は86.1% (OptLayerPolicy) に対して92.4% (OptLayerPolicy) に増加し,訓練後の政策は104.9% (GreyOptLayerPolicy) に,バニラRLベンチマークと比較して103.4% (OptLayer) に増加した。最適化問題にサロゲート関数を導入するには特に注意が必要であるが,新たに提示したgreyoptlayerpolicy法が最も有利であると結論する。

関連論文リスト

Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Continuous Knowledge-Preserving Decomposition with Adaptive Layer Selection for Few-Shot Class-Incremental Learning [73.59672160329296]
CKPD-FSCILは、事前訓練された重量の未使用容量を解放する統合フレームワークである。本手法は,適応性と知識保持の両面で,最先端の手法より一貫して優れている。
論文参考訳（メタデータ） (2025-01-09T07:18:48Z)
ACL-QL: Adaptive Conservative Level in Q-Learning for Offline Reinforcement Learning [46.67828766038463]
本稿では,Q-Learning(ACL-QL)における適応保守レベル(Adaptive Conservative Level in Q-Learning, ACL-QL)を提案する。 ACL-QLは、各状態-作用ペアに対する保守的なレベルの適応的な制御を可能にする。理論解析により,2つの学習可能な適応重み関数を用いて各遷移の保守レベルを制御する新しいアルゴリズム ACL-QL を提案する。
論文参考訳（メタデータ） (2024-12-22T04:18:02Z)
Offline RL via Feature-Occupancy Gradient Ascent [9.983014605039658]
大規模無限水平割引マルコフ決定過程(MDP)におけるオフライン強化学習の研究我々は,特徴占有空間における勾配上昇の形式を実行する新しいアルゴリズムを開発した。結果として得られた単純なアルゴリズムは、強い計算とサンプルの複雑さの保証を満たすことを示す。
論文参考訳（メタデータ） (2024-05-22T15:39:05Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
A Multiplicative Value Function for Safe and Efficient Reinforcement Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文参考訳（メタデータ） (2023-03-07T18:29:15Z)
Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。ソフトマージン条件下でのバニラQ関数の類似した結果を示す。我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文参考訳（メタデータ） (2023-02-05T14:22:41Z)
Safety Correction from Baseline: Towards the Risk-aware Policy in Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文参考訳（メタデータ） (2022-12-14T03:11:25Z)
Model-based Safe Deep Reinforcement Learning via a Constrained Proximal Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文参考訳（メタデータ） (2022-10-14T06:53:02Z)
Safe reinforcement learning for multi-energy management systems with known constraint functions [0.0]
強化学習(Reinforcement Learning, RL)は, 多エネルギー管理システムにおける最適制御手法である。我々はSafeFallbackとGiveSafeという2つの新しい安全なRL手法を提案する。シミュレーションされたマルチエネルギーシステムのケーススタディでは、どちらの手法も非常に高い実用性から始めることを示した。
論文参考訳（メタデータ） (2022-07-08T11:33:53Z)
Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文参考訳（メタデータ） (2021-07-13T21:39:21Z)
Enforcing Policy Feasibility Constraints through Differentiable Projection for Energy Optimization [57.88118988775461]
本稿では,ニューラルポリシー内での凸操作制約を強制するために,PROF(Projected Feasibility)を提案する。エネルギー効率の高い建築操作とインバータ制御の2つの応用についてPROFを実証する。
論文参考訳（メタデータ） (2021-05-19T01:58:10Z)
First Order Constrained Optimization in Policy Space [19.00289722198614]
政策空間における一階制約最適化(FOCOPS)という新しい手法を提案する。 FOCOPSは、エージェントの全体的な報酬を最大化し、エージェントが一連のコスト制約を満たすことを保証します。我々は,ロボット機関車の一連の作業において,簡単なアプローチがより良い性能を達成するという実証的な証拠を提供する。
論文参考訳（メタデータ） (2020-02-16T05:07:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。