Fugu-MT 論文翻訳(概要): Combined Peak Reduction and Self-Consumption Using Proximal Policy Optimization

論文の概要: Combined Peak Reduction and Self-Consumption Using Proximal Policy Optimization

arxiv url: http://arxiv.org/abs/2211.14831v1
Date: Sun, 27 Nov 2022 13:53:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-29 22:56:10.277202
Title: Combined Peak Reduction and Self-Consumption Using Proximal Policy Optimization
Title（参考訳）: 近似最適化を用いたピーク低減と自己消費の併用
Authors: Thijs Peirelinck, Chris Hermans, Fred Spiessens, Geert Deconinck
Abstract要約: 住宅需要対応プログラムは、世帯レベルでの需要柔軟性を活性化することを目的としている。近似ポリシー最適化(PPO)のような新しいRLアルゴリズムは、データの効率を向上しようと試みている。我々は,PPO統合トランスファー学習の適応バージョンを示し,通常のコントローラと比較してコストを14.51%削減した。
参考スコア（独自算出の注目度）: 0.2867517731896504
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Residential demand response programs aim to activate demand flexibility at the household level. In recent years, reinforcement learning (RL) has gained significant attention for these type of applications. A major challenge of RL algorithms is data efficiency. New RL algorithms, such as proximal policy optimisation (PPO), have tried to increase data efficiency. Additionally, combining RL with transfer learning has been proposed in an effort to mitigate this challenge. In this work, we further improve upon state-of-the-art transfer learning performance by incorporating demand response domain knowledge into the learning pipeline. We evaluate our approach on a demand response use case where peak shaving and self-consumption is incentivised by means of a capacity tariff. We show our adapted version of PPO, combined with transfer learning, reduces cost by 14.51% compared to a regular hysteresis controller and by 6.68% compared to traditional PPO.
Abstract（参考訳）: 住宅需要対応プログラムは、家庭レベルでの需要柔軟性を活性化することを目的としている。近年, 強化学習 (RL) が注目されている。 RLアルゴリズムの大きな課題は、データ効率である。近似ポリシー最適化(PPO)のような新しいRLアルゴリズムは、データの効率を向上しようと試みている。さらに、この課題を軽減するために、RLと転写学習の組み合わせが提案されている。本研究では,需要応答領域の知識を学習パイプラインに組み込むことにより,最先端の伝達学習性能をさらに向上する。我々は,ピークシェービングと自己消費がキャパシティ関税によってインセンティブ化される需要対応ユースケースに対するアプローチを評価する。 PPOの適応版と転写学習を組み合わせることで,通常のヒステリシスコントローラに比べて14.51%,従来のPPOに比べて6.68%のコスト削減を実現した。

関連論文リスト

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文参考訳（メタデータ） (2025-03-02T13:43:53Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文参考訳（メタデータ） (2024-09-27T13:05:02Z)
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。 LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文参考訳（メタデータ） (2024-06-30T08:00:34Z)
Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文参考訳（メタデータ） (2024-05-29T01:49:20Z)
Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。 AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文参考訳（メタデータ） (2024-05-25T11:57:43Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Optimized cost function for demand response coordination of multiple EV charging stations using reinforcement learning [6.37470346908743]
我々は、複数の充電ステーションを同時に調整するマルコフ決定プロセス(MDP)に基づいて、RLに関する以前の研究に基づいて構築する。我々は、基本的に、学習した制御ポリシーに対して、柔軟性を提供しない充電需要を常に満たすよう強制するコスト関数の改善を提案する。提案したバッチRLのQ-iteration実装を,実世界のデータを用いて,オリジナル(コスト)のQ-iteration実装と厳密に比較する。
論文参考訳（メタデータ） (2022-03-03T11:22:27Z)
A Reinforcement Learning Approach to Parameter Selection for Distributed Optimization in Power Systems [1.1199585259018459]
本稿では,ADMMによるAC最適電力流(ACOPF)問題に対する適応的ペナルティパラメータ選択ポリシーを開発する。我々のRLポリシは一般化可能性の保証を示し、見知らぬロードスキームの下では良好に機能し、ラインやジェネレータの目に見えない損失の下でも機能することを示す。この研究は、パワーシステムアプリケーションのためのADMMにおけるパラメータ選択にRLを使用するための概念実証を提供する。
論文参考訳（メタデータ） (2021-10-22T18:17:32Z)
Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文参考訳（メタデータ） (2020-02-19T07:30:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。