論文の概要: Near-optimal Deep Reinforcement Learning Policies from Data for Zone
Temperature Control
- arxiv url: http://arxiv.org/abs/2203.05434v1
- Date: Thu, 10 Mar 2022 15:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 16:25:16.797648
- Title: Near-optimal Deep Reinforcement Learning Policies from Data for Zone
Temperature Control
- Title(参考訳): ゾーン温度制御のためのデータから準最適深層強化学習方針
- Authors: Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, and Colin N.
Jones
- Abstract要約: DRLエージェントの性能を理論的に最適解と比較した。
この結果から,DRLエージェントは従来のルールベースコントローラよりも明らかに優れるだけでなく,ほぼ最適性能が得られることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Replacing poorly performing existing controllers with smarter solutions will
decrease the energy intensity of the building sector. Recently, controllers
based on Deep Reinforcement Learning (DRL) have been shown to be more effective
than conventional baselines. However, since the optimal solution is usually
unknown, it is still unclear if DRL agents are attaining near-optimal
performance in general or if there is still a large gap to bridge.
In this paper, we investigate the performance of DRL agents compared to the
theoretically optimal solution. To that end, we leverage Physically Consistent
Neural Networks (PCNNs) as simulation environments, for which optimal control
inputs are easy to compute. Furthermore, PCNNs solely rely on data to be
trained, avoiding the difficult physics-based modeling phase, while retaining
physical consistency. Our results hint that DRL agents not only clearly
outperform conventional rule-based controllers, they furthermore attain
near-optimal performance.
- Abstract(参考訳): 性能の悪い既存のコントローラをよりスマートなソリューションに置き換えることで、ビルディングセクターのエネルギー強度が低下する。
近年,Deep Reinforcement Learning (DRL) に基づくコントローラは,従来のベースラインよりも有効であることが示されている。
しかし、最適解法は通常不明であるため、DRL剤が概して最適に近い性能を保っているのか、橋梁に大きなギャップがあるのかはまだ不明である。
本稿では,DRLエージェントの性能を理論的に最適解と比較して検討する。
そこで我々は,最適制御入力を計算し易いシミュレーション環境として,物理一貫性ニューラルネットワーク(PCNN)を利用する。
さらに、PCNNはトレーニング対象のデータにのみ依存し、物理的な一貫性を維持しながら、難しい物理ベースのモデリングフェーズを避ける。
この結果から,DRLエージェントは従来のルールベースコントローラよりも明らかに優れるだけでなく,ほぼ最適性能が得られることが示唆された。
関連論文リスト
- Safe Load Balancing in Software-Defined-Networking [1.2521494095948067]
負荷分散のためのDeep Reinforcement Learning (DRL)アルゴリズム上に設計された制御バリア(CBF)。
DRL-CBFアプローチは,トレーニングおよびテスト中の安全性要件を満たすことができることを示す。
論文 参考訳(メタデータ) (2024-10-22T09:34:22Z) - Active Reinforcement Learning for Robust Building Control [0.0]
強化学習(Reinforcement Learning, RL)は、Atariゲーム、Goのゲーム、ロボット制御、ビルド最適化で大きな成功を収めた、最適な制御のための強力なツールである。
教師なし環境設計 (UED) は, エージェントが特別に選抜された環境において, 学習を支援するための訓練を行う, この問題に対する解決策として提案されている。
この結果から,ActivePLRはエネルギー使用量を最小限に抑えつつ,建物制御の際の快適さを最大化しながら,最先端のUEDアルゴリズムより優れた性能を発揮できることが示唆された。
論文 参考訳(メタデータ) (2023-12-16T02:18:45Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Communication-Efficient Orchestrations for URLLC Service via
Hierarchical Reinforcement Learning [14.604814002402588]
制御ループの時間スケールが異なるマルチレベルポリシーの実装を可能にするマルチエージェント階層型RL(HRL)フレームワークを提案する。
従来技術のユースケースでは、HRLフレームワークを用いて、産業機器の最大送電量と送電電力を最適化した。
論文 参考訳(メタデータ) (2023-07-25T11:23:38Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - Federated Deep Reinforcement Learning for the Distributed Control of
NextG Wireless Networks [16.12495409295754]
次世代(NextG)ネットワークは、拡張現実(AR)やコネクテッド・自律走行車といった、インターネットの触覚を必要とするアプリケーションをサポートすることが期待されている。
データ駆動アプローチは、現在の運用条件に適応するネットワークの能力を改善することができる。
深部RL(DRL)は複雑な環境においても良好な性能を発揮することが示されている。
論文 参考訳(メタデータ) (2021-12-07T03:13:20Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。