論文の概要: Towards Optimal Pricing of Demand Response -- A Nonparametric
Constrained Policy Optimization Approach
- arxiv url: http://arxiv.org/abs/2306.14047v1
- Date: Sat, 24 Jun 2023 20:07:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 17:20:59.012938
- Title: Towards Optimal Pricing of Demand Response -- A Nonparametric
Constrained Policy Optimization Approach
- Title(参考訳): 需要応答の最適価格設定に向けて --非パラメトリック制約付き政策最適化アプローチ
- Authors: Jun Song and Chaoyue Zhao
- Abstract要約: 需要応答(DR)は、ピーク負荷を低減し、電力市場の需給側における不確実性を緩和する有効な方法であることが示されている。
DR研究の重要な問題のひとつは、電気負荷をピークからオフピーク時間にシフトさせるために、電気価格を適切に調整する方法である。
政策更新の安定性を確保しつつ、最適性を向上する革新的な非パラメトリック制約付き政策最適化手法を提案する。
- 参考スコア(独自算出の注目度): 2.345728642535161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Demand response (DR) has been demonstrated to be an effective method for
reducing peak load and mitigating uncertainties on both the supply and demand
sides of the electricity market. One critical question for DR research is how
to appropriately adjust electricity prices in order to shift electrical load
from peak to off-peak hours. In recent years, reinforcement learning (RL) has
been used to address the price-based DR problem because it is a model-free
technique that does not necessitate the identification of models for end-use
customers. However, the majority of RL methods cannot guarantee the stability
and optimality of the learned pricing policy, which is undesirable in
safety-critical power systems and may result in high customer bills. In this
paper, we propose an innovative nonparametric constrained policy optimization
approach that improves optimality while ensuring stability of the policy
update, by removing the restrictive assumption on policy representation that
the majority of the RL literature adopts: the policy must be parameterized or
fall into a certain distribution class. We derive a closed-form expression of
optimal policy update for each iteration and develop an efficient on-policy
actor-critic algorithm to address the proposed constrained policy optimization
problem. The experiments on two DR cases show the superior performance of our
proposed nonparametric constrained policy optimization method compared with
state-of-the-art RL algorithms.
- Abstract(参考訳): 需要応答(DR)は、ピーク負荷を低減し、電力市場の需給両面における不確実性を緩和する有効な方法であることが示されている。
DR研究の重要な問題は、電気負荷をピークからオフピーク時間にシフトさせるために、電気価格を適切に調整する方法である。
近年では、エンドユース顧客のためのモデルの識別を必要としないモデルフリー技術であるため、価格ベースのDR問題に対処するために強化学習(RL)が用いられている。
しかし、RL法の大部分は、安全クリティカルな電力システムでは望ましくない学習価格政策の安定性と最適性を保証することができず、高い顧客の請求書が生じる可能性がある。
本稿では,rl文献の多数派が採用する政策表現の制約的前提を取り除き,政策更新の安定性を確保しつつ最適性を向上させる革新的な非パラメトリック制約付き政策最適化手法を提案する。
提案する制約付きポリシー最適化問題に対処するために,各イテレーションの最適ポリシー更新のクローズドフォーム表現を導出し,効率的なオン・ポリシー・アクタ・クリティックアルゴリズムを開発する。
2つのDRケースに対する実験により,提案した非パラメトリック制約付きポリシー最適化法は,最先端RLアルゴリズムと比較して優れた性能を示した。
関連論文リスト
- Preferred-Action-Optimized Diffusion Policies for Offline Reinforcement Learning [19.533619091287676]
オフライン強化学習のための優先行動最適化拡散政策を提案する。
特に、表現的条件拡散モデルを用いて、行動ポリシーの多様な分布を表現する。
実験により,提案手法は従来のオフラインRL法と比較して,競争力や性能に優れることを示した。
論文 参考訳(メタデータ) (2024-05-29T03:19:59Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Optimistic Distributionally Robust Policy Optimization [2.345728642535161]
Trust Region Policy Optimization (TRPO) と Proximal Policy Optimization (PPO) は、特定のパラメトリック分布クラスにポリシー表現を制限するため、準最適解に収束する傾向にある。
そこで我々は,信頼領域制約最適化問題をパラメータ化せずに解くために,最適分布ロバストポリシ最適化(ODRO)アルゴリズムを開発した。
提案アルゴリズムは, TRPOとPPOを改良し, 学習安定性を確保しつつ, サンプル効率の向上と最終方針の性能向上を実現した。
論文 参考訳(メタデータ) (2020-06-14T06:36:18Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。