論文の概要: Continual Reinforcement Learning for HVAC Systems Control: Integrating Hypernetworks and Transfer Learning
- arxiv url: http://arxiv.org/abs/2503.19212v1
- Date: Mon, 24 Mar 2025 23:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:50:47.450704
- Title: Continual Reinforcement Learning for HVAC Systems Control: Integrating Hypernetworks and Transfer Learning
- Title(参考訳): HVACシステム制御のための連続強化学習:ハイパーネットとトランスファー学習の統合
- Authors: Gautham Udayakumar Bekal, Ahmed Ghareeb, Ashish Pujari,
- Abstract要約: ビッグデータによってDeep Reinforcement Learning (DRL)のようなデータ駆動型メソッドが実現された
モデルに基づく強化学習フレームワークを導入し、Hypernetworkを使用して、異なるアクション空間を持つタスク間の環境ダイナミクスを継続的に学習する。
本手法は,第2タスクのトレーニング後の連続学習環境において,第1タスクの微調整が最小限に抑えられ,わずか5エピソード以内の迅速な収束が可能となることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Buildings with Heating, Ventilation, and Air Conditioning (HVAC) systems play a crucial role in ensuring indoor comfort and efficiency. While traditionally governed by physics-based models, the emergence of big data has enabled data-driven methods like Deep Reinforcement Learning (DRL). However, Reinforcement Learning (RL)-based techniques often suffer from sample inefficiency and limited generalization, especially across varying HVAC systems. We introduce a model-based reinforcement learning framework that uses a Hypernetwork to continuously learn environment dynamics across tasks with different action spaces. This enables efficient synthetic rollout generation and improved sample usage. Our approach demonstrates strong backward transfer in a continual learning setting after training on a second task, minimal fine-tuning on the first task allows rapid convergence within just 5 episodes and thus outperforming Model Free Reinforcement Learning (MFRL) and effectively mitigating catastrophic forgetting. These findings have significant implications for reducing energy consumption and operational costs in building management, thus supporting global sustainability goals. Keywords: Deep Reinforcement Learning, HVAC Systems Control, Hypernetworks, Transfer and Continual Learning, Catastrophic Forgetting
- Abstract(参考訳): 暖房、換気、空調(HVAC)システムを備えた建物は、室内の快適さと効率性を確保する上で重要な役割を担っている。
伝統的に物理ベースのモデルによって支配されているが、ビッグデータの出現は、Deep Reinforcement Learning (DRL)のようなデータ駆動の手法を可能にしている。
しかし、強化学習(Reinforcement Learning, RL)に基づく手法は、サンプルの非効率性と限定的な一般化に悩まされることが多い。
モデルに基づく強化学習フレームワークを導入し、Hypernetworkを使用して、異なるアクション空間を持つタスク間の環境ダイナミクスを継続的に学習する。
これにより、効率的な合成ロールアウト生成とサンプル使用率の向上が可能となる。
提案手法は,第2タスクのトレーニング後の連続的な学習環境において強い後方移行を示し,第1タスクの最小微調整により,わずか5エピソード以内の迅速な収束が可能となり,モデルフリー強化学習(MFRL)よりも優れ,破滅的な忘れを効果的に軽減する。
これらの知見は, ビル管理におけるエネルギー消費と運用コストの削減に重要な意味を持ち, グローバルなサステナビリティ目標の達成に寄与する。
キーワード:Deep Reinforcement Learning, HVAC Systems Control, Hypernetworks, Transfer and Continual Learning, Catastrophic Forgetting
関連論文リスト
- Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。
この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。
本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-04T08:21:47Z) - Employing Federated Learning for Training Autonomous HVAC Systems [3.4137115855910767]
ビルは世界のエネルギー消費の40%を占めている。
スマートでエネルギー効率のよいHVACシステムを実装することは、気候変動の進行に大きな影響を与える可能性がある。
モデルなし強化学習アルゴリズムは、エネルギーコストと消費、および熱的快適性において古典的なコントローラよりも優れていることが示されている。
論文 参考訳(メタデータ) (2024-05-01T08:42:22Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。
Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文 参考訳(メタデータ) (2021-04-04T17:56:34Z) - Continual Model-Based Reinforcement Learning with Hypernetworks [24.86684067407964]
本稿では,タスク条件付きハイパーネットを用いたタスクのシーケンスにおいて,遭遇するダイナミクスを継続的に学習する手法を提案する。
まず、従来のタスクからトレーニングデータを再考しない動的学習セッションを含むので、状態遷移経験の最新の固定サイズの部分を格納するだけです。
ロボットの移動と操作のシナリオにおいて,HyperCRLは連続モデルに基づく強化学習に有効であることを示す。
論文 参考訳(メタデータ) (2020-09-25T01:46:26Z) - One for Many: Transfer Learning for Building HVAC Control [24.78264822089494]
本稿では,この課題を克服するために,トランスファーラーニングに基づく新しいアプローチを提案する。
本手法は,ソースビルディング用に訓練されたDRLベースのHVACコントローラを,最小限の労力で目標ビルディング用のコントローラに効果的に転送し,性能を向上する。
論文 参考訳(メタデータ) (2020-08-09T01:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。