Fugu-MT 論文翻訳(概要): Constrained Reinforcement Learning for Safe Heat Pump Control

論文の概要: Constrained Reinforcement Learning for Safe Heat Pump Control

arxiv url: http://arxiv.org/abs/2409.19716v1
Date: Sun, 29 Sep 2024 14:15:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 21:19:41.306060
Title: Constrained Reinforcement Learning for Safe Heat Pump Control
Title（参考訳）: 安全ヒートポンプ制御のための拘束強化学習
Authors: Baohe Zhang, Lilli Frison, Thomas Brox, Joschka Bödecker,
Abstract要約: 異なる用途のインタフェースを提供する新しいビルディングシミュレータI4Bを提案する。本研究では,線形平滑ログバリア関数 (CSAC-LB) を用いた制約付きソフトアクタ・クリティカルというモデルレス制約付きRLアルゴリズムを加熱最適化問題に適用する。ベースラインアルゴリズムに対するベンチマークは、CSAC-LBのデータ探索、制約満足度、性能における効率を示す。
参考スコア（独自算出の注目度）: 24.6591923448048
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Constrained Reinforcement Learning (RL) has emerged as a significant research area within RL, where integrating constraints with rewards is crucial for enhancing safety and performance across diverse control tasks. In the context of heating systems in the buildings, optimizing the energy efficiency while maintaining the residents' thermal comfort can be intuitively formulated as a constrained optimization problem. However, to solve it with RL may require large amount of data. Therefore, an accurate and versatile simulator is favored. In this paper, we propose a novel building simulator I4B which provides interfaces for different usages and apply a model-free constrained RL algorithm named constrained Soft Actor-Critic with Linear Smoothed Log Barrier function (CSAC-LB) to the heating optimization problem. Benchmarking against baseline algorithms demonstrates CSAC-LB's efficiency in data exploration, constraint satisfaction and performance.
Abstract（参考訳）: 制約強化学習(RL:Constrained Reinforcement Learning)は、様々な制御タスクにおける安全性とパフォーマンスを高めるために、報酬への制約の統合が不可欠であるRL内の重要な研究領域として登場した。建物内の暖房システムの文脈では、住民の熱快適性を保ちながらエネルギー効率を最適化することは、制約付き最適化問題として直感的に定式化することができる。しかし、それをRLで解くには大量のデータが必要になるかもしれない。そのため、正確で多用途なシミュレータが好まれる。本稿では,異なる用途のインタフェースを提供する新しいビルディングシミュレータI4Bを提案するとともに,線形平滑ログバリア関数(CSAC-LB)を用いた制約付きソフトアクター・クリティカルというモデルレス制約付きRLアルゴリズムを加熱最適化問題に適用する。ベースラインアルゴリズムに対するベンチマークは、CSAC-LBのデータ探索、制約満足度、性能における効率を示す。

関連論文リスト

Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Optimisation of the Accelerator Control by Reinforcement Learning: A Simulation-Based Approach [0.615163395430594]
本研究では,Reinforcement Learning(RL)と統合されたシミュレーションベースのフレームワークの構築を目的とする。シミュレーションバックエンドとして textttElegant を用い,RL アルゴリズムとアクセルシミュレーションの相互作用を簡略化する Python ラッパーを開発した。提案したRLフレームワークは物理学者のコパイロットとして機能し,ビームライン性能の向上,チューニング時間短縮,運用効率の向上など,インテリジェントな提案を行う。
論文参考訳（メタデータ） (2025-03-12T16:57:52Z)
Adaptive Data Exploitation in Deep Reinforcement Learning [50.53705050673944]
深層強化学習(RL)における**データ効率**と**一般化**を強化する強力なフレームワークであるADEPTを紹介する。具体的には、ADEPTはマルチアーム・バンディット(MAB)アルゴリズムを用いて、異なる学習段階にわたるサンプルデータの使用を適応的に管理する。 Procgen、MiniGrid、PyBulletなどのベンチマークでADEPTをテストする。
論文参考訳（メタデータ） (2025-01-22T04:01:17Z)
Reinforcement Learning Constrained Beam Search for Parameter Optimization of Paper Drying Under Flexible Constraints [7.014163329716659]
最適化問題における推論時間改善のための強化学習制約ビームサーチ(RLCBS)を提案する。以上の結果から, RLCBS は NSGA-II よりも複雑な設計制約下で, モジュール構成を推論時に乾燥させるのに優れていた。
論文参考訳（メタデータ） (2025-01-21T23:16:19Z)
Safe Load Balancing in Software-Defined-Networking [1.2521494095948067]
負荷分散のためのDeep Reinforcement Learning (DRL)アルゴリズム上に設計された制御バリア(CBF)。 DRL-CBFアプローチは,トレーニングおよびテスト中の安全性要件を満たすことができることを示す。
論文参考訳（メタデータ） (2024-10-22T09:34:22Z)
Constrained Reinforcement Learning with Smoothed Log Barrier Function [27.216122901635018]
CSAC-LB (Constrained Soft Actor-Critic with Log Barrier Function) と呼ばれる新しい制約付きRL法を提案する。線形スムーズなログバリア関数を追加の安全評論家に適用することにより、事前トレーニングなしで競争性能を達成する。 CSAC-LBでは,様々な難易度を有する制約付き制御タスクにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-03-21T16:02:52Z)
OTClean: Data Cleaning for Conditional Independence Violations using Optimal Transport [51.6416022358349]
sysは、条件付き独立性(CI)制約下でのデータ修復に最適な輸送理論を利用するフレームワークである。我々はSinkhornの行列スケーリングアルゴリズムにインスパイアされた反復アルゴリズムを開発し、高次元および大規模データを効率的に処理する。
論文参考訳（メタデータ） (2024-03-04T18:23:55Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Robust optimal well control using an adaptive multi-grid reinforcement learning framework [0.0]
強化学習は、堅牢な最適ウェルコントロール問題を解決するための有望なツールである。提案するフレームワークは、最先端のモデルフリーポリシーベースのRLアルゴリズムを用いて実証される。計算効率の顕著な向上は,提案したフレームワークを用いて,1つのファイングリッドの計算コストの約60～70%を削減した。
論文参考訳（メタデータ） (2022-07-07T12:08:57Z)
Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文参考訳（メタデータ） (2022-04-14T17:46:26Z)
Development of a Soft Actor Critic Deep Reinforcement Learning Approach for Harnessing Energy Flexibility in a Large Office Building [0.0]
本研究は,Soft Actor Critic'(SAC)に基づくDeep Reinforcement Learning(DRL)の新規適用と研究に関するものである。 SACは、連続的なアクションスペースを処理できるモデルフリーのDRL技術です。
論文参考訳（メタデータ） (2021-04-25T10:33:35Z)
Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-11-16T13:16:22Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文参考訳（メタデータ） (2020-02-22T10:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。