Fugu-MT 論文翻訳(概要): A Comparison of Classical and Deep Reinforcement Learning Methods for HVAC Control

論文の概要: A Comparison of Classical and Deep Reinforcement Learning Methods for HVAC Control

arxiv url: http://arxiv.org/abs/2308.05711v1
Date: Thu, 10 Aug 2023 17:20:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-11 11:38:13.420214
Title: A Comparison of Classical and Deep Reinforcement Learning Methods for HVAC Control
Title（参考訳）: HVAC制御のための古典的・深い強化学習法の比較
Authors: Marshall Wang, John Willes, Thomas Jiralerspong, Matin Moezzi
Abstract要約: 複数のHVAC環境にまたがる2つの古典的およびディープなRL手法(Q-LearningとDeep-Q-Networks)をベンチマークする。その結果, HVAC システムにおける RL エージェントの設定に関する知見が得られ, エネルギー効率, 費用対効果が向上した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) is a promising approach for optimizing HVAC control. RL offers a framework for improving system performance, reducing energy consumption, and enhancing cost efficiency. We benchmark two popular classical and deep RL methods (Q-Learning and Deep-Q-Networks) across multiple HVAC environments and explore the practical consideration of model hyper-parameter selection and reward tuning. The findings provide insight for configuring RL agents in HVAC systems, promoting energy-efficient and cost-effective operation.
Abstract（参考訳）: 強化学習(RL)は、HVAC制御を最適化するための有望なアプローチである。 RLはシステム性能の向上、エネルギー消費の削減、コスト効率の向上のためのフレームワークを提供する。我々は,複数のHVAC環境にまたがる古典的およびディープなRL手法(Q-LearningとDeep-Q-Networks)をベンチマークし,モデルハイパーパラメータ選択と報酬チューニングの実践的考察を行った。その結果, HVAC システムにおける RL エージェントの設定に関する知見が得られ, エネルギー効率とコスト効率が向上した。

関連論文リスト

Representation Learning Enhanced Deep Reinforcement Learning for Optimal Operation of Hydrogen-based Multi-Energy Systems [22.64829050013722]
水素系多エネルギー系(HMES)は、有望な低炭素・エネルギー効率の溶液として出現している。本稿では,HESSの非線形力学および多物理過程を捉えるHMESの総合的運用モデルを開発する。本稿では,新たな表現学習技術を統合することで,強化された深層強化学習(DRL)フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-17T14:35:09Z)
Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts [113.0656076371565]
オフ・ポリティクス強化学習(RL)における重要サンプリング重み付けを最適化する新しいルータ認識手法を提案する。具体的には、ルータロジットによって誘導される再スケーリング戦略を設計し、勾配のばらつきを効果的に低減し、トレーニングのばらつきを軽減する。実験により, 本手法は収束安定性とMoEモデルの最終的な性能の両方を著しく改善することが示された。
論文参考訳（メタデータ） (2025-10-27T05:47:48Z)
Deep Reinforcement Learning for Real-Time Green Energy Integration in Data Centers [0.0]
本稿では,eコマースデータセンターを対象とした,DRL(Deep Reinforcement Learning)最適化エネルギー管理システムの実装について検討する。提案システムは, 再生可能エネルギー源, エネルギー貯蔵, グリッド電力の統合を動的に管理し, リアルタイムの変動エネルギー利用に適応する。
論文参考訳（メタデータ） (2025-07-24T00:59:56Z)
KDRL: Post-Training Reasoning LLMs via Unified Knowledge Distillation and Reinforcement Learning [72.53466291156604]
教師の指導(KD)と自己探索(RL)を通じて推論モデルを協調的に最適化するテキスト化後学習フレームワークである textbfKDRL を提案する。まず、GRPOとKDを統合する統一目的を定式化し、異なるKL近似、KL係数、報酬誘導KD戦略が学習後の全体的なダイナミクスと性能にどのように影響するかを体系的に検討する。
論文参考訳（メタデータ） (2025-06-02T19:46:41Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Optimizing Power Grid Topologies with Reinforcement Learning: A Survey of Methods and Challenges [42.642008092347986]
電力ネットワーク制御(PNC)への有望なアプローチとして強化学習(RL)が登場した。本稿では電力グリッドトポロジ最適化のためのRLアプリケーションの概要を紹介する。
論文参考訳（メタデータ） (2025-04-11T02:27:30Z)
ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。 ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文参考訳（メタデータ） (2025-03-08T07:03:43Z)
Improving the Efficiency of a Deep Reinforcement Learning-Based Power Management System for HPC Clusters Using Curriculum Learning [1.1380162891529537]
機械学習はノードのオン/オフに最適な時間を決定することを約束している。本研究では、カリキュラム学習(CL)を統合することで、HPC電力管理のための深層強化学習(DRL)エージェントの性能を向上させる。実験結果から, 無駄なエネルギー使用量を減らすという点で, 容易にハードなカリキュラムは, 他の訓練命令よりも優れていたことが確認された。
論文参考訳（メタデータ） (2025-02-27T18:19:22Z)
Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。 PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文参考訳（メタデータ） (2024-08-28T08:35:34Z)
Go Beyond Black-box Policies: Rethinking the Design of Learning Agent for Interpretable and Verifiable HVAC Control [3.326392645107372]
熱力学モデルと過去のデータから抽出した決定木を用いてHVACコントローラを再設計することでボトルネックを克服する。本手法は68.4%のエネルギーを節約し, 人間の快適度を14.8%向上させる。
論文参考訳（メタデータ） (2024-02-29T22:42:23Z)
Scalable Volt-VAR Optimization using RLlib-IMPALA Framework: A Reinforcement Learning Approach [11.11570399751075]
本研究は, 深層強化学習(DRL)の可能性を活用した新しい枠組みを提案する。 DRLエージェントをRAYプラットフォームに統合することにより、RAYのリソースを効率的に利用してシステム適応性と制御を改善する新しいフレームワークであるRLlib-IMPALAの開発が容易になる。
論文参考訳（メタデータ） (2024-02-24T23:25:35Z)
An experimental evaluation of Deep Reinforcement Learning algorithms for HVAC control [40.71019623757305]
近年の研究では、Deep Reinforcement Learning (DRL)アルゴリズムが従来のリアクティブコントローラより優れていることが示されている。本稿では,HVAC制御のためのいくつかの最先端DRLアルゴリズムについて,批判的かつ再現可能な評価を行う。
論文参考訳（メタデータ） (2024-01-11T08:40:26Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Laxity-Aware Scalable Reinforcement Learning for HVAC Control [2.0625936401496237]
我々は,各操作要求の緊急レベルを定量化するために,遅延の概念を活用することにより,モデリングと制御における次元問題の呪いに取り組む。本研究では,多くのHVACシステムに対する2段階のエネルギー最適化手法を提案する。
論文参考訳（メタデータ） (2023-06-29T01:28:14Z)
CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。 CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文参考訳（メタデータ） (2023-06-09T18:45:15Z)
Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文参考訳（メタデータ） (2023-04-03T17:59:58Z)
Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。 SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文参考訳（メタデータ） (2021-11-05T12:51:15Z)
Improving Robustness of Reinforcement Learning for Power System Control with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文参考訳（メタデータ） (2021-10-18T00:50:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。