論文の概要: Combined Peak Reduction and Self-Consumption Using Proximal Policy
Optimization
- arxiv url: http://arxiv.org/abs/2211.14831v1
- Date: Sun, 27 Nov 2022 13:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 22:56:10.277202
- Title: Combined Peak Reduction and Self-Consumption Using Proximal Policy
Optimization
- Title(参考訳): 近似最適化を用いたピーク低減と自己消費の併用
- Authors: Thijs Peirelinck, Chris Hermans, Fred Spiessens, Geert Deconinck
- Abstract要約: 住宅需要対応プログラムは、世帯レベルでの需要柔軟性を活性化することを目的としている。
近似ポリシー最適化(PPO)のような新しいRLアルゴリズムは、データの効率を向上しようと試みている。
我々は,PPO統合トランスファー学習の適応バージョンを示し,通常のコントローラと比較してコストを14.51%削減した。
- 参考スコア(独自算出の注目度): 0.2867517731896504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Residential demand response programs aim to activate demand flexibility at
the household level. In recent years, reinforcement learning (RL) has gained
significant attention for these type of applications. A major challenge of RL
algorithms is data efficiency. New RL algorithms, such as proximal policy
optimisation (PPO), have tried to increase data efficiency. Additionally,
combining RL with transfer learning has been proposed in an effort to mitigate
this challenge. In this work, we further improve upon state-of-the-art transfer
learning performance by incorporating demand response domain knowledge into the
learning pipeline. We evaluate our approach on a demand response use case where
peak shaving and self-consumption is incentivised by means of a capacity
tariff. We show our adapted version of PPO, combined with transfer learning,
reduces cost by 14.51% compared to a regular hysteresis controller and by 6.68%
compared to traditional PPO.
- Abstract(参考訳): 住宅需要対応プログラムは、家庭レベルでの需要柔軟性を活性化することを目的としている。
近年, 強化学習 (RL) が注目されている。
RLアルゴリズムの大きな課題は、データ効率である。
近似ポリシー最適化(PPO)のような新しいRLアルゴリズムは、データの効率を向上しようと試みている。
さらに、この課題を軽減するために、RLと転写学習の組み合わせが提案されている。
本研究では,需要応答領域の知識を学習パイプラインに組み込むことにより,最先端の伝達学習性能をさらに向上する。
我々は,ピークシェービングと自己消費がキャパシティ関税によってインセンティブ化される需要対応ユースケースに対するアプローチを評価する。
PPOの適応版と転写学習を組み合わせることで,通常のヒステリシスコントローラに比べて14.51%,従来のPPOに比べて6.68%のコスト削減を実現した。
関連論文リスト
- PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では,PYRA(Parallel Yielding Re-Activation)手法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Dynamic Price Incentivization for Carbon Emission Reduction using
Quantum Optimization [4.280776597892008]
デマンドサイド・レスポンス(Demand Side Response, DSR)は、消費者が電気需要の管理に積極的に参加できるようにする戦略である。
我々は、消費者に電力消費パターンを調整するための価格インセンティブを提供するディスカウントスケジューリングを通じてDSRを実装している。
我々は、D-WaveのLeap Hybrid Cloudを使って、ハイブリッド量子コンピューティングアプローチを採用する。
論文 参考訳(メタデータ) (2023-09-11T14:44:12Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Optimized cost function for demand response coordination of multiple EV
charging stations using reinforcement learning [6.37470346908743]
我々は、複数の充電ステーションを同時に調整するマルコフ決定プロセス(MDP)に基づいて、RLに関する以前の研究に基づいて構築する。
我々は、基本的に、学習した制御ポリシーに対して、柔軟性を提供しない充電需要を常に満たすよう強制するコスト関数の改善を提案する。
提案したバッチRLのQ-iteration実装を,実世界のデータを用いて,オリジナル(コスト)のQ-iteration実装と厳密に比較する。
論文 参考訳(メタデータ) (2022-03-03T11:22:27Z) - A Reinforcement Learning Approach to Parameter Selection for Distributed
Optimization in Power Systems [1.1199585259018459]
本稿では,ADMMによるAC最適電力流(ACOPF)問題に対する適応的ペナルティパラメータ選択ポリシーを開発する。
我々のRLポリシは一般化可能性の保証を示し、見知らぬロードスキームの下では良好に機能し、ラインやジェネレータの目に見えない損失の下でも機能することを示す。
この研究は、パワーシステムアプリケーションのためのADMMにおけるパラメータ選択にRLを使用するための概念実証を提供する。
論文 参考訳(メタデータ) (2021-10-22T18:17:32Z) - Optimizing the Long-Term Average Reward for Continuing MDPs: A Technical
Report [117.23323653198297]
ユーザが経験した情報の鮮度と、センサが消費するエネルギーのバランスをとっています。
対応するステータス更新手順を継続的なマルコフ決定プロセス(MDP)としてキャストします。
次元の呪いを回避するため,我々は深層強化学習(DRL)アルゴリズムを設計するための方法論を確立した。
論文 参考訳(メタデータ) (2021-04-13T12:29:55Z) - Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文 参考訳(メタデータ) (2020-09-03T10:04:06Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。