論文の概要: Go Beyond Black-box Policies: Rethinking the Design of Learning Agent
for Interpretable and Verifiable HVAC Control
- arxiv url: http://arxiv.org/abs/2403.00172v1
- Date: Thu, 29 Feb 2024 22:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:57:43.836725
- Title: Go Beyond Black-box Policies: Rethinking the Design of Learning Agent
for Interpretable and Verifiable HVAC Control
- Title(参考訳): ブラックボックスポリシーを超えて:解釈可能かつ検証可能なhvac制御のための学習エージェントの設計再考
- Authors: Zhiyu An, Xianzhong Ding, Wan Du
- Abstract要約: 熱力学モデルと過去のデータから抽出した決定木を用いてHVACコントローラを再設計することでボトルネックを克服する。
本手法は68.4%のエネルギーを節約し, 人間の快適度を14.8%向上させる。
- 参考スコア(独自算出の注目度): 3.326392645107372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has shown the potential of Model-based Reinforcement Learning
(MBRL) to enhance energy efficiency of Heating, Ventilation, and Air
Conditioning (HVAC) systems. However, existing methods rely on black-box
thermal dynamics models and stochastic optimizers, lacking reliability
guarantees and posing risks to occupant health. In this work, we overcome the
reliability bottleneck by redesigning HVAC controllers using decision trees
extracted from existing thermal dynamics models and historical data. Our
decision tree-based policies are deterministic, verifiable, interpretable, and
more energy-efficient than current MBRL methods. First, we introduce a novel
verification criterion for RL agents in HVAC control based on domain knowledge.
Second, we develop a policy extraction procedure that produces a verifiable
decision tree policy. We found that the high dimensionality of the thermal
dynamics model input hinders the efficiency of policy extraction. To tackle the
dimensionality challenge, we leverage importance sampling conditioned on
historical data distributions, significantly improving policy extraction
efficiency. Lastly, we present an offline verification algorithm that
guarantees the reliability of a control policy. Extensive experiments show that
our method saves 68.4% more energy and increases human comfort gain by 14.8%
compared to the state-of-the-art method, in addition to an 1127x reduction in
computation overhead. Our code and data are available at
https://github.com/ryeii/Veri_HVAC
- Abstract(参考訳): 近年の研究では, 暖房, 換気, 空調システムのエネルギー効率を高めるためのモデルベース強化学習(MBRL)の可能性が示されている。
しかし、既存の手法はブラックボックスの熱力学モデルと確率的オプティマイザに依存しており、信頼性の保証が欠如し、健康へのリスクが生じる。
本研究では,既存の熱力学モデルと過去のデータから抽出した決定木を用いて,HVACコントローラを再設計することで,信頼性のボトルネックを克服する。
我々の決定木に基づく政策は、現在のMBRL法よりも決定的、検証可能、解釈可能、エネルギー効率が高い。
まず、ドメイン知識に基づくhvac制御において、rlエージェントの新たな検証基準を導入する。
第2に、検証可能な決定木ポリシーを生成するポリシー抽出手順を開発する。
熱力学モデル入力の高次元性は,政策抽出の効率を阻害することを発見した。
次元的課題に取り組むために,過去のデータ分布を前提とした重要サンプリングを活用し,政策抽出効率を大幅に向上させる。
最後に,制御ポリシの信頼性を保証するオフライン検証アルゴリズムを提案する。
広範な実験により、計算オーバーヘッドの1127倍削減に加えて、68.4%の省エネと人間の快適性向上を14.8%向上させることが示された。
私たちのコードとデータはhttps://github.com/ryeii/veri_hvacで利用可能です。
関連論文リスト
- Experimental evaluation of offline reinforcement learning for HVAC control in buildings [12.542463083734614]
建物における動的HVAC制御のために, 強化学習(RL)技術がますます研究されている。
本稿では,最先端のオフラインRLアルゴリズムの長所と短所を包括的に評価する。
論文 参考訳(メタデータ) (2024-08-15T07:25:52Z) - Improving Building Temperature Forecasting: A Data-driven Approach with
System Scenario Clustering [3.2114754609864695]
暖房、換気、空調のシステムは、建築セクターにおけるエネルギー使用量の約40%を消費する。
大規模HVACシステム管理では,各サブシステムに対して詳細なモデルを構築することは困難である。
k平均クラスタリング法に基づく新しいデータ駆動室温予測モデルを提案する。
論文 参考訳(メタデータ) (2024-02-21T09:04:45Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。
CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Data-driven HVAC Control Using Symbolic Regression: Design and
Implementation [0.0]
本研究では,データ駆動加熱・換気・空調制御の設計と実装手法を提案する。
熱力学の構築は、収集されたデータから構築されたシンボリック回帰モデル(SRM)を用いてモデル化される。
提案フレームワークは、広く使われているサーモスタットコントローラと比較してピーク電力を16.1%削減する。
論文 参考訳(メタデータ) (2023-04-06T13:57:50Z) - Wasserstein Auto-encoded MDPs: Formal Verification of Efficiently
Distilled RL Policies with Many-sided Guarantees [0.0]
変分マルコフ決定過程(VAE-MDPs)は、任意のRLポリシーから検証可能なコントローラを蒸留するための信頼性の高いフレームワークを提供する離散潜在空間モデルである。
本稿では, 原政策を実行するエージェントの挙動と蒸留政策との最適輸送のペナル化形式を最小化することにより, これらの問題を解決する潜在空間モデルであるWasserstein Auto-encoded MDP(WAE-MDP)を紹介する。
実験の結果, 蒸留法が10倍高速であるのに加えて, 潜水モデルの品質も良好であることが示唆された。
論文 参考訳(メタデータ) (2023-03-22T13:41:42Z) - Data-Driven Stochastic AC-OPF using Gaussian Processes [54.94701604030199]
大量の再生可能エネルギーを電力網に統合することは、おそらく気候変動を遅らせる電力網からの二酸化炭素排出量を減らす最も有効な方法だろう。
本稿では、不確実な入力を組み込むことのできる交流電力流方程式に基づく代替データ駆動方式を提案する。
GPアプローチは、このギャップを交流電力流方程式に閉じるために、単純だが制約のないデータ駆動アプローチを学ぶ。
論文 参考訳(メタデータ) (2022-07-21T23:02:35Z) - Development of a Soft Actor Critic Deep Reinforcement Learning Approach
for Harnessing Energy Flexibility in a Large Office Building [0.0]
本研究は,Soft Actor Critic'(SAC)に基づくDeep Reinforcement Learning(DRL)の新規適用と研究に関するものである。
SACは、連続的なアクションスペースを処理できるモデルフリーのDRL技術です。
論文 参考訳(メタデータ) (2021-04-25T10:33:35Z) - SS-SFDA : Self-Supervised Source-Free Domain Adaptation for Road
Segmentation in Hazardous Environments [54.22535063244038]
本研究では,雨や霧などの悪天候条件下での道路の非監督的区画化に対する新しいアプローチを提案する。
これには、自己教師付き学習を用いたソースフリードメイン適応(SFDA)のための新しいアルゴリズムが含まれている。
実際の悪天候条件と合成悪天候条件に対応するデータセットを6ドルで評価した。
論文 参考訳(メタデータ) (2020-11-27T09:19:03Z) - Controlling Rayleigh-B\'enard convection via Reinforcement Learning [62.997667081978825]
固定外熱勾配下での対流熱交換を抑制または促進するための効果的な制御戦略の同定は、重要な基本的かつ技術的問題である。
本研究では,最先端の強化学習(RL)アルゴリズムに基づく新しい手法を提案する。
我々のRL制御は導電系を安定させ、対流の開始をレイリー数にすることができることを示す。
論文 参考訳(メタデータ) (2020-03-31T16:39:25Z) - NeurOpt: Neural network based optimization for building energy
management and climate control [58.06411999767069]
モデル同定のコストを削減するために,ニューラルネットワークに基づくデータ駆動制御アルゴリズムを提案する。
イタリアにある10の独立したゾーンを持つ2階建ての建物で、学習と制御のアルゴリズムを検証する。
論文 参考訳(メタデータ) (2020-01-22T00:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。