論文の概要: Real-world validation of safe reinforcement learning, model predictive control and decision tree-based home energy management systems
- arxiv url: http://arxiv.org/abs/2408.07435v2
- Date: Mon, 25 Nov 2024 09:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:17:45.109002
- Title: Real-world validation of safe reinforcement learning, model predictive control and decision tree-based home energy management systems
- Title(参考訳): 安全強化学習、モデル予測制御および決定木に基づく家庭エネルギー管理システムの現実的検証
- Authors: Julian Ruddick, Glenn Ceusters, Gilles Van Kriekinge, Evgenii Genov, Cedric De Cauwer, Thierry Coosemans, Maarten Messagie,
- Abstract要約: 本稿では,機械学習に基づくエネルギー管理手法の現実的検証について述べる。
住宅の4つの再生を電気的に設置する実験を行った。
- 参考スコア(独自算出の注目度): 0.8480931990442769
- License:
- Abstract: Recent advancements in machine learning based energy management approaches, specifically reinforcement learning with a safety layer (OptLayerPolicy) and a metaheuristic algorithm generating a decision tree control policy (TreeC), have shown promise. However, their effectiveness has only been demonstrated in computer simulations. This paper presents the real-world validation of these methods, comparing against model predictive control and simple rule-based control benchmark. The experiments were conducted on the electrical installation of 4 reproductions of residential houses, which all have their own battery, photovoltaic and dynamic load system emulating a non-controllable electrical load and a controllable electric vehicle charger. The results show that the simple rules, TreeC, and model predictive control-based methods achieved similar costs, with a difference of only 0.6%. The reinforcement learning based method, still in its training phase, obtained a cost 25.5\% higher to the other methods. Additional simulations show that the costs can be further reduced by using a more representative training dataset for TreeC and addressing errors in the model predictive control implementation caused by its reliance on accurate data from various sources. The OptLayerPolicy safety layer allows safe online training of a reinforcement learning agent in the real-world, given an accurate constraint function formulation. The proposed safety layer method remains error-prone, nonetheless, it is found beneficial for all investigated methods. The TreeC method, which does require building a realistic simulation for training, exhibits the safest operational performance, exceeding the grid limit by only 27.1 Wh compared to 593.9 Wh for reinforcement learning.
- Abstract(参考訳): 機械学習に基づくエネルギー管理手法の最近の進歩、特に安全層(OptLayerPolicy)と決定木制御ポリシー(TreeC)を生成するメタヒューリスティックアルゴリズムによる強化学習が約束されている。
しかし、それらの効果はコンピュータシミュレーションでのみ実証されている。
本稿では,これらの手法の現実的検証について,モデル予測制御と単純なルールベース制御ベンチマークとの比較を行った。
本実験は, 自家用蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式
その結果、単純なルール、TreeC、モデル予測制御に基づく手法が同様のコストを達成し、差はわずか0.6%であった。
この強化学習法は、まだ訓練段階にあるが、他の方法よりも25.5倍高いコストが得られた。
追加のシミュレーションでは、TreeCのより代表的なトレーニングデータセットを使用して、さまざまなソースからの正確なデータに依存するモデル予測制御実装におけるエラーに対処することにより、コストをさらに削減できることが示されている。
OptLayerPolicyセーフティレイヤは、正確な制約関数の定式化を前提として、現実世界の強化学習エージェントの安全なオンライントレーニングを可能にする。
提案した安全層法は, 誤差が発生しやすいが, いずれの方法においても有用であることがわかった。
訓練のための現実的なシミュレーションを構築する必要があるTreeC法は、強化学習のための593.9 Whに比べて、グリッド限界をわずか27.1 Whで越え、最も安全な運用性能を示す。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Enabling Efficient, Reliable Real-World Reinforcement Learning with
Approximate Physics-Based Models [10.472792899267365]
我々は,実世界のデータを用いたロボット学習のための,効率的かつ信頼性の高いポリシー最適化戦略の開発に重点を置いている。
本稿では,新しい政策勾配に基づく政策最適化フレームワークを提案する。
提案手法では,実世界のデータの数分で,正確な制御戦略を確実に学習できることが示されている。
論文 参考訳(メタデータ) (2023-07-16T22:36:36Z) - ConBaT: Control Barrier Transformer for Safe Policy Learning [26.023275758215423]
Control Barrier Transformer (ConBaT) は、自己管理型でデモから安全な動作を学ぶアプローチである。
デプロイメントでは、軽量なオンライン最適化を使用して、学習された安全なセット内に将来状態が確実に配置されるアクションを見つけます。
論文 参考訳(メタデータ) (2023-03-07T20:04:28Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Physics-informed Evolutionary Strategy based Control for Mitigating
Delayed Voltage Recovery [14.44961822756759]
物理インフォームド・ガイド付きメタ進化戦略(ES)に基づく新しいデータ駆動リアルタイム電力系統電圧制御法を提案する。
主な目的は、故障による遅延電圧回復(FIDVR)問題を緩和するための適応制御戦略を迅速に提供することである。
論文 参考訳(メタデータ) (2021-11-29T07:12:40Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Learning-based vs Model-free Adaptive Control of a MAV under Wind Gust [0.2770822269241973]
未知の条件下でのナビゲーション問題は、制御分野において最も重要でよく研究されている問題の一つである。
近年のモデルフリー適応制御法は, センサフィードバックから直接植物の物理的特性を学習することにより, この依存を除去することを目的としている。
提案手法は,深い強化学習フレームワークによって頑健に調整された完全状態フィードバックコントローラからなる,概念的にシンプルな学習ベースアプローチを提案する。
論文 参考訳(メタデータ) (2021-01-29T10:13:56Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。