論文の概要: A Novel Demand Response Model and Method for Peak Reduction in Smart
Grids -- PowerTAC
- arxiv url: http://arxiv.org/abs/2302.12520v1
- Date: Fri, 24 Feb 2023 09:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 14:15:56.418516
- Title: A Novel Demand Response Model and Method for Peak Reduction in Smart
Grids -- PowerTAC
- Title(参考訳): スマートグリッドにおける新しい需要応答モデルとピーク低減手法 -- PowerTAC
- Authors: Sanjay Chandlekar, Arthik Boroju, Shweta Jain and Sujit Gujar
- Abstract要約: 本研究は,実世界のスマートグリッドシミュレータPowerTACにおいて,そのような提案を受け入れる可能性に対するインセンティブの影響について検討する。
MJS-ExpResponse は,予算制約の下で期待される削減を最大化することにより,各エージェントにディスカウントを出力するアルゴリズムである。
テストベッドとしてPowerTACシミュレータを用いた実世界のスマートグリッドシステムにおいて,需要ピークを緩和するアルゴリズムの有効性を示す。
- 参考スコア(独自算出の注目度): 10.89897139129592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the widely used peak reduction methods in smart grids is demand
response, where one analyzes the shift in customers' (agents') usage patterns
in response to the signal from the distribution company. Often, these signals
are in the form of incentives offered to agents. This work studies the effect
of incentives on the probabilities of accepting such offers in a real-world
smart grid simulator, PowerTAC. We first show that there exists a function that
depicts the probability of an agent reducing its load as a function of the
discounts offered to them. We call it reduction probability (RP). RP function
is further parametrized by the rate of reduction (RR), which can differ for
each agent. We provide an optimal algorithm, MJS--ExpResponse, that outputs the
discounts to each agent by maximizing the expected reduction under a budget
constraint. When RRs are unknown, we propose a Multi-Armed Bandit (MAB) based
online algorithm, namely MJSUCB--ExpResponse, to learn RRs. Experimentally we
show that it exhibits sublinear regret. Finally, we showcase the efficacy of
the proposed algorithm in mitigating demand peaks in a real-world smart grid
system using the PowerTAC simulator as a test bed.
- Abstract(参考訳): スマートグリッドで広く使われているピーク低減手法の1つは需要応答であり、配電会社からの信号に応じて顧客(エージェント)の使用パターンの変化を分析する。
多くの場合、これらの信号はエージェントに提供されるインセンティブの形式である。
本研究は,実世界のスマートグリッドシミュレータPowerTACにおいて,そのような提案を受け入れる可能性に対するインセンティブの影響について検討する。
まず,エージェントが提供した割引の関数として負荷を低減させる可能性を示す関数が存在することを示す。
これを還元確率(RP)と呼ぶ。
RP関数は還元率(RR)によってさらにパラメータ化され、各剤ごとに異なる。
MJS-ExpResponse は,予算制約の下で期待される削減を最大化することにより,各エージェントにディスカウントを出力するアルゴリズムである。
RRが不明な場合、MJSUCB-ExpResponseというマルチアーマッド・バンド(MAB)ベースのオンラインアルゴリズムを提案し、RRを学習する。
実験により,亜線形後悔を示すことが示された。
最後に,PowerTACシミュレータをテストベッドとした実世界のスマートグリッドシステムにおいて,需要ピークを緩和するアルゴリズムの有効性を示す。
関連論文リスト
- Refined Mechanism Design for Approximately Structured Priors via Active
Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。
この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文 参考訳(メタデータ) (2023-10-11T20:34:17Z) - Submodular Reinforcement Learning [77.97471858326077]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z) - Cooperative Thresholded Lasso for Sparse Linear Bandit [6.52540785559241]
本稿では,マルチエージェント・スパース文脈線形帯域問題に対処する新しい手法を提案する。
疎線形帯域における行単位の分散データに対処する最初のアルゴリズムである。
後悔を最小限に抑えるために効率的な特徴抽出が重要となる高次元マルチエージェント問題に適用可能である。
論文 参考訳(メタデータ) (2023-05-30T16:05:44Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Neural Contextual Bandits via Reward-Biased Maximum Likelihood
Estimation [9.69596041242667]
Reward-biased maximum max estimation (RBMLE) は、探索・探索トレードオフに対処するための適応制御文学における古典的な原理である。
本稿では,一般有界報酬関数を用いた文脈的バンディット問題について検討し,RBMLEの原理を適用したNeuralRBMLEを提案する。
両アルゴリズムは、非線形報酬関数を持つ実世界のデータセットにおける最先端の手法と比較して、同等またはより良い経験的後悔を実現する。
論文 参考訳(メタデータ) (2022-03-08T16:33:36Z) - Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement
Learning Approach [130.9259586568977]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。
当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文 参考訳(メタデータ) (2022-02-25T16:17:23Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Decentralized Graph-Based Multi-Agent Reinforcement Learning Using
Reward Machines [5.34590273802424]
報酬処理装置を用いて各エージェントのタスクを符号化し、報酬関数の内部構造を公開する。
本稿では,各エージェントに局所的なポリシーを付与する分散グラフに基づく強化学習アルゴリズムを提案する。
提案したDGRMアルゴリズムの有効性は,UAVパッケージデリバリーとCOVID-19パンデミック緩和の2つのケーススタディにより評価された。
論文 参考訳(メタデータ) (2021-09-30T21:41:55Z) - Output-Weighted Sampling for Multi-Armed Bandits with Extreme Payoffs [11.1546439770774]
極度のペイオフを伴うバンディット問題におけるオンライン意思決定のための新しいタイプの獲得機能を提示する。
我々は,最も関連性が高いと考えられる盗賊を探索する新しいタイプの上位信頼境界(UCB)取得関数を定式化する。
論文 参考訳(メタデータ) (2021-02-19T18:36:03Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。