論文の概要: Active Reinforcement Learning for Robust Building Control
- arxiv url: http://arxiv.org/abs/2312.10289v1
- Date: Sat, 16 Dec 2023 02:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 17:25:41.785648
- Title: Active Reinforcement Learning for Robust Building Control
- Title(参考訳): ロバスト建築制御のためのアクティブ強化学習
- Authors: Doseok Jang, Larry Yan, Lucas Spangher, Costas Spanos
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、Atariゲーム、Goのゲーム、ロボット制御、ビルド最適化で大きな成功を収めた、最適な制御のための強力なツールである。
教師なし環境設計 (UED) は, エージェントが特別に選抜された環境において, 学習を支援するための訓練を行う, この問題に対する解決策として提案されている。
この結果から,ActivePLRはエネルギー使用量を最小限に抑えつつ,建物制御の際の快適さを最大化しながら,最先端のUEDアルゴリズムより優れた性能を発揮できることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is a powerful tool for optimal control that has
found great success in Atari games, the game of Go, robotic control, and
building optimization. RL is also very brittle; agents often overfit to their
training environment and fail to generalize to new settings. Unsupervised
environment design (UED) has been proposed as a solution to this problem, in
which the agent trains in environments that have been specially selected to
help it learn. Previous UED algorithms focus on trying to train an RL agent
that generalizes across a large distribution of environments. This is not
necessarily desirable when we wish to prioritize performance in one environment
over others. In this work, we will be examining the setting of robust RL
building control, where we wish to train an RL agent that prioritizes
performing well in normal weather while still being robust to extreme weather
conditions. We demonstrate a novel UED algorithm, ActivePLR, that uses
uncertainty-aware neural network architectures to generate new training
environments at the limit of the RL agent's ability while being able to
prioritize performance in a desired base environment. We show that ActivePLR is
able to outperform state-of-the-art UED algorithms in minimizing energy usage
while maximizing occupant comfort in the setting of building control.
- Abstract(参考訳): 強化学習(RL)は最適な制御のための強力なツールであり、Atariゲーム、Goのゲーム、ロボット制御、構築最適化で大きな成功を収めている。
エージェントはトレーニング環境に過度に適合し、新しい設定への一般化に失敗することが多い。
教師なし環境設計 (unsupervised environment design, ued) は、エージェントが学習を助けるために特別に選択された環境を訓練するこの問題の解決策として提案されている。
以前のUEDアルゴリズムは、大規模な環境分布にまたがって一般化するRLエージェントのトレーニングに重点を置いていた。
これは、ある環境でパフォーマンスを他の環境よりも優先したい場合、必ずしも望ましいものではない。
本研究では, 極度の気象条件に対して頑健でありながら, 正常な天候下での良好な性能を優先するRLエージェントを訓練する, 頑健なRLビルディングコントロールの設定について検討する。
本研究では,不確実性を考慮したニューラル・ネットワーク・アーキテクチャを用いて,rlエージェントの能力の限界で新たなトレーニング環境を生成する新しいuedアルゴリズムであるactiveplrを提案する。
この結果から,ActivePLRはエネルギー使用量を最小限に抑えつつ,建物制御の際の快適さを最大化しながら,最先端のUEDアルゴリズムより優れることを示す。
関連論文リスト
- Kinetix: Investigating the Training of General Agents through Open-Ended Physics-Based Control Tasks [3.479490713357225]
我々は、何千万もの2次元物理に基づくタスクを手続き的に生成し、それらを物理制御のための一般強化学習(RL)エージェントの訓練に使用する。
Kinetixは物理ベースのRL環境のオープンエンドスペースで、ロボットの移動やグリップからビデオゲームや古典的なRL環境まで、さまざまなタスクを表現できる。
我々の訓練されたエージェントは強力な物理的推論能力を示し、目に見えない人間が設計した環境をゼロショットで解決することができる。
論文 参考訳(メタデータ) (2024-10-30T16:59:41Z) - A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - Boosting Robustness in Preference-Based Reinforcement Learning with Dynamic Sparsity [21.40849085315057]
極雑音環境設定におけるR2Nの有効性について検討し, 最大95%の状態特徴が無関係な乱れとなるRL問題設定について検討した。
シミュレーション教師による実験では、R2Nはタスク関連機能に焦点を合わせるために、ニューラルネットワークの疎結合に適応できることを示した。
論文 参考訳(メタデータ) (2024-06-10T17:31:07Z) - Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文 参考訳(メタデータ) (2023-10-17T02:40:27Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Low Emission Building Control with Zero-Shot Reinforcement Learning [70.70479436076238]
強化学習(RL)による制御は、建築エネルギー効率を著しく向上させることが示されている。
我々は、ゼロショットビルディング制御と呼ばれるパラダイムを優先せずに、排出削減ポリシーを得られることを示す。
論文 参考訳(メタデータ) (2022-08-12T17:13:25Z) - Near-optimal Deep Reinforcement Learning Policies from Data for Zone
Temperature Control [0.0]
DRLエージェントの性能を理論的に最適解と比較した。
この結果から,DRLエージェントは従来のルールベースコントローラよりも明らかに優れるだけでなく,ほぼ最適性能が得られることが示唆された。
論文 参考訳(メタデータ) (2022-03-10T15:41:29Z) - Curriculum Based Reinforcement Learning of Grid Topology Controllers to
Prevent Thermal Cascading [0.19116784879310028]
本稿では,電力系統演算子のドメイン知識を強化学習フレームワークに統合する方法について述べる。
環境を改良することにより、報酬チューニングを伴うカリキュラムベースのアプローチをトレーニング手順に組み込む。
複数のシナリオに対する並列トレーニングアプローチは、エージェントをいくつかのシナリオに偏りなくし、グリッド操作の自然変動に対して堅牢にするために使用される。
論文 参考訳(メタデータ) (2021-12-18T20:32:05Z) - Improving Robustness of Reinforcement Learning for Power System Control
with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。
具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。
本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。