論文の概要: ReLBOT: A Transfer Learning Approach to Minimize Reinforcement Learning
Risks in Smart Buildings
- arxiv url: http://arxiv.org/abs/2305.00365v1
- Date: Sun, 30 Apr 2023 01:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 15:45:50.906104
- Title: ReLBOT: A Transfer Learning Approach to Minimize Reinforcement Learning
Risks in Smart Buildings
- Title(参考訳): relbot:スマートビルディングにおける強化学習リスクを最小化するトランスファー学習手法
- Authors: Mikhail Genkin and J.J. McArthru
- Abstract要約: ReLBOTは、トランスファーラーニングと深いRLを併用して、既存の最適化されたスマートな建物から新しいコミッションされた建物へ知識を伝達する技術である。
本研究は,強化学習者のウォームアップ期間における最大6.2回,最大132回の改善効果を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Smart buildings aim to optimize energy consumption by applying artificial
intelligent algorithms. When a smart building is commissioned there is no
historical data that could be used to train these algorithms. On-line
Reinforcement Learning (RL) algorithms have shown significant promise, but
their deployment carries a significant risk, because as the RL agent initially
explores its action space it could cause significant discomfort to the building
residents. In this paper we present ReLBOT, a new technique that uses transfer
learning in conjunction with deep RL to transfer knowledge from an existing,
optimized smart building, to the newly commissioning building, to reduce the
adverse impact of the reinforcement learning agent's warm-up period. We
demonstrate improvements of up to 6.2 times in the duration, and up to 132
times in prediction variance for the reinforcement learning agent's warm-up
period.
- Abstract(参考訳): スマートな建物は、人工知能アルゴリズムを適用してエネルギー消費を最適化することを目指している。
スマートビルが発注されると、これらのアルゴリズムのトレーニングに使用できる履歴データは存在しない。
オンライン強化学習(RL)アルゴリズムは大きな可能性を秘めているが、その展開には大きなリスクが伴う。
本稿では,学習者のウォームアップ期間の悪影響を軽減するために,既存の最適化されたスマートビルディングから新たなビルに知識を転送するために,deep rlと連携してトランスファー学習を利用する手法であるrelbotを提案する。
本研究は,強化学習者のウォームアップ期間における最大6.2回,最大132回の改善効果を示す。
関連論文リスト
- Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
深層強化学習(LRRL)のための動的学習率を提案する。
LRRLは、トレーニング中のエージェントのパフォーマンスに基づいて学習率を選択するメタラーニングアプローチである。
実験の結果,LRRLは深部RLアルゴリズムの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - A Method for Fast Autonomy Transfer in Reinforcement Learning [3.8049020806504967]
本稿では、迅速な自律移行を容易にするために、新しい強化学習(RL)戦略を提案する。
大規模なリトレーニングや微調整を必要とする従来の手法とは異なり、我々の手法は既存の知識を統合し、RLエージェントが新しい設定に迅速に適応できるようにする。
論文 参考訳(メタデータ) (2024-07-29T23:48:07Z) - Forgetting before Learning: Utilizing Parametric Arithmetic for
Knowledge Updating in Large Language Models [53.52344131257681]
本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。
2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
論文 参考訳(メタデータ) (2023-11-14T09:12:40Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Path Planning using Reinforcement Learning: A Policy Iteration Approach [0.0]
本研究は、強化学習パラメータに関連する設計空間の探索に光を当てることを目的としている。
本稿では,これらのパラメータを探索するプロセスの高速化を目的とした,自動チューニングに基づく順序回帰手法を提案する。
当社のアプローチでは,従来の最先端技術よりも平均1.48倍のスピードアップで1.82倍のピークスピードアップを実現している。
論文 参考訳(メタデータ) (2023-03-13T23:44:40Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Renaissance Robot: Optimal Transport Policy Fusion for Learning Diverse
Skills [28.39150937658635]
最適輸送理論を用いた政策融合のためのポストホック手法を提案する。
これにより、新しいタスクを学習するためのニューラルネットワークポリシの初期化が改善される。
以上の結果から,専門知識を「ルネッサンスエージェント」に統合し,新たなスキルの学習を迅速に行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-07-03T08:15:41Z) - Improving Robustness of Reinforcement Learning for Power System Control
with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。
具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。
本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:50:34Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。