論文の概要: Experimental evaluation of offline reinforcement learning for HVAC control in buildings
- arxiv url: http://arxiv.org/abs/2408.07986v1
- Date: Thu, 15 Aug 2024 07:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:46:15.962752
- Title: Experimental evaluation of offline reinforcement learning for HVAC control in buildings
- Title(参考訳): 建物におけるHVAC制御のためのオフライン強化学習の実験的検討
- Authors: Jun Wang, Linyan Li, Qi Liu, Yu Yang,
- Abstract要約: 建物における動的HVAC制御のために, 強化学習(RL)技術がますます研究されている。
本稿では,最先端のオフラインRLアルゴリズムの長所と短所を包括的に評価する。
- 参考スコア(独自算出の注目度): 12.542463083734614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) techniques have been increasingly investigated for dynamic HVAC control in buildings. However, most studies focus on exploring solutions in online or off-policy scenarios without discussing in detail the implementation feasibility or effectiveness of dealing with purely offline datasets or trajectories. The lack of these works limits the real-world deployment of RL-based HVAC controllers, especially considering the abundance of historical data. To this end, this paper comprehensively evaluates the strengths and limitations of state-of-the-art offline RL algorithms by conducting analytical and numerical studies. The analysis is conducted from two perspectives: algorithms and dataset characteristics. As a prerequisite, the necessity of applying offline RL algorithms is first confirmed in two building environments. The ability of observation history modeling to reduce violations and enhance performance is subsequently studied. Next, the performance of RL-based controllers under datasets with different qualitative and quantitative conditions is investigated, including constraint satisfaction and power consumption. Finally, the sensitivity of certain hyperparameters is also evaluated. The results indicate that datasets of a certain suboptimality level and relatively small scale can be utilized to effectively train a well-performed RL-based HVAC controller. Specifically, such controllers can reduce at most 28.5% violation ratios of indoor temperatures and achieve at most 12.1% power savings compared to the baseline controller. In summary, this paper presents our well-structured investigations and new findings when applying offline reinforcement learning to building HVAC systems.
- Abstract(参考訳): 建物における動的HVAC制御のために, 強化学習(RL)技術がますます研究されている。
しかし、ほとんどの研究は、純粋にオフラインのデータセットやトラジェクトリを扱う実装の実現可能性や有効性について詳細に議論することなく、オンラインまたは非政治シナリオでのソリューションの探索に重点を置いている。
これらの研究の欠如は、歴史的データが豊富であることを考えると、RLベースのHVACコントローラの実際の展開を制限する。
そこで本研究では,解析的および数値的研究により,最先端のオフラインRLアルゴリズムの強みと限界を包括的に評価する。
この分析はアルゴリズムとデータセットの特徴の2つの観点から行われる。
前提条件として、オフラインRLアルゴリズムを適用する必要性は、2つの構築環境で最初に確認される。
観察履歴モデリングによる違反の低減と性能向上の可能性について検討した。
次に,制約満足度や消費電力など,定性的・定量的条件の異なるデータセット下でのRL制御の性能について検討した。
最後に、ある種のハイパーパラメータの感度も評価する。
その結果, ある準最適レベルと比較的小さなスケールのデータセットを用いて, 良好なRLベースのHVACコントローラを効果的に訓練できることが示唆された。
具体的には、そのようなコントローラは、室内温度の少なくとも28.5%の違反率を減らし、ベースラインコントローラと比較して少なくとも12.1%の省電力を達成することができる。
本稿は,HVACシステム構築にオフライン強化学習を適用した際のよく構造化された調査と新たな知見について述べる。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Go Beyond Black-box Policies: Rethinking the Design of Learning Agent
for Interpretable and Verifiable HVAC Control [3.326392645107372]
熱力学モデルと過去のデータから抽出した決定木を用いてHVACコントローラを再設計することでボトルネックを克服する。
本手法は68.4%のエネルギーを節約し, 人間の快適度を14.8%向上させる。
論文 参考訳(メタデータ) (2024-02-29T22:42:23Z) - An experimental evaluation of Deep Reinforcement Learning algorithms for HVAC control [40.71019623757305]
近年の研究では、Deep Reinforcement Learning (DRL)アルゴリズムが従来のリアクティブコントローラより優れていることが示されている。
本稿では,HVAC制御のためのいくつかの最先端DRLアルゴリズムについて,批判的かつ再現可能な評価を行う。
論文 参考訳(メタデータ) (2024-01-11T08:40:26Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Look Beneath the Surface: Exploiting Fundamental Symmetry for
Sample-Efficient Offline RL [29.885978495034703]
オフライン強化学習(RL)は、事前にコンパイルされたデータセットからポリシーを学ぶことによって、現実世界のタスクに魅力的なアプローチを提供する。
しかし、既存のオフラインRLアルゴリズムの性能はデータセットのスケールと状態-アクション空間カバレッジに大きく依存する。
システム力学の基本対称性を活用することで、小さなデータセット下でのオフラインRL性能を大幅に向上できるという新たな知見を提供する。
論文 参考訳(メタデータ) (2023-06-07T07:51:05Z) - Revisiting the Minimalist Approach to Offline Reinforcement Learning [52.0035089982277]
ReBRACはTD3+BC法上に構築された設計要素を統合する最小限のアルゴリズムである。
D4RLとV-D4RLのベンチマークを用いて,51データセット上のReBRACの評価を行った。
論文 参考訳(メタデータ) (2023-05-16T22:37:01Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - A Reinforcement Learning-based Volt-VAR Control Dataset and Testing
Environment [4.386026071380442]
本稿では,RLに基づくVVCアルゴリズム研究のための,サンプル効率,安全性,ロバストなオープンソースのデータセット群を紹介する。
データセットは、2つのコンポーネントで構成されている。1. IEEE-13、123、および8500バスのテストフィード用のGymライクなVVCテスト環境。
論文 参考訳(メタデータ) (2022-04-20T14:44:55Z) - On the Robustness of Controlled Deep Reinforcement Learning for Slice
Placement [0.8459686722437155]
我々は、純粋なDRLベースアルゴリズムとハイブリッドDRLヒューリスティックアルゴリズムである2つのDeep Reinforcement Learningアルゴリズムを比較した。
評価結果から,提案手法は純粋なDRLよりも予測不可能なネットワーク負荷変化の場合に,より堅牢で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2021-08-05T10:24:33Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。