Fugu-MT 論文翻訳(概要): A Novel Demand Response Model and Method for Peak Reduction in Smart Grids -- PowerTAC

論文の概要: A Novel Demand Response Model and Method for Peak Reduction in Smart Grids -- PowerTAC

arxiv url: http://arxiv.org/abs/2302.12520v1
Date: Fri, 24 Feb 2023 09:13:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-27 14:15:56.418516
Title: A Novel Demand Response Model and Method for Peak Reduction in Smart Grids -- PowerTAC
Title（参考訳）: スマートグリッドにおける新しい需要応答モデルとピーク低減手法 -- PowerTAC
Authors: Sanjay Chandlekar, Arthik Boroju, Shweta Jain and Sujit Gujar
Abstract要約: 本研究は,実世界のスマートグリッドシミュレータPowerTACにおいて,そのような提案を受け入れる可能性に対するインセンティブの影響について検討する。 MJS-ExpResponse は,予算制約の下で期待される削減を最大化することにより,各エージェントにディスカウントを出力するアルゴリズムである。テストベッドとしてPowerTACシミュレータを用いた実世界のスマートグリッドシステムにおいて,需要ピークを緩和するアルゴリズムの有効性を示す。
参考スコア（独自算出の注目度）: 10.89897139129592
License: http://creativecommons.org/licenses/by/4.0/
Abstract: One of the widely used peak reduction methods in smart grids is demand response, where one analyzes the shift in customers' (agents') usage patterns in response to the signal from the distribution company. Often, these signals are in the form of incentives offered to agents. This work studies the effect of incentives on the probabilities of accepting such offers in a real-world smart grid simulator, PowerTAC. We first show that there exists a function that depicts the probability of an agent reducing its load as a function of the discounts offered to them. We call it reduction probability (RP). RP function is further parametrized by the rate of reduction (RR), which can differ for each agent. We provide an optimal algorithm, MJS--ExpResponse, that outputs the discounts to each agent by maximizing the expected reduction under a budget constraint. When RRs are unknown, we propose a Multi-Armed Bandit (MAB) based online algorithm, namely MJSUCB--ExpResponse, to learn RRs. Experimentally we show that it exhibits sublinear regret. Finally, we showcase the efficacy of the proposed algorithm in mitigating demand peaks in a real-world smart grid system using the PowerTAC simulator as a test bed.
Abstract（参考訳）: スマートグリッドで広く使われているピーク低減手法の1つは需要応答であり、配電会社からの信号に応じて顧客(エージェント)の使用パターンの変化を分析する。多くの場合、これらの信号はエージェントに提供されるインセンティブの形式である。本研究は,実世界のスマートグリッドシミュレータPowerTACにおいて,そのような提案を受け入れる可能性に対するインセンティブの影響について検討する。まず,エージェントが提供した割引の関数として負荷を低減させる可能性を示す関数が存在することを示す。これを還元確率(RP)と呼ぶ。 RP関数は還元率(RR)によってさらにパラメータ化され、各剤ごとに異なる。 MJS-ExpResponse は,予算制約の下で期待される削減を最大化することにより,各エージェントにディスカウントを出力するアルゴリズムである。 RRが不明な場合、MJSUCB-ExpResponseというマルチアーマッド・バンド(MAB)ベースのオンラインアルゴリズムを提案し、RRを学習する。実験により,亜線形後悔を示すことが示された。最後に,PowerTACシミュレータをテストベッドとした実世界のスマートグリッドシステムにおいて,需要ピークを緩和するアルゴリズムの有効性を示す。

関連論文リスト

Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。 PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文参考訳（メタデータ） (2025-02-07T00:06:17Z)
Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文参考訳（メタデータ） (2024-10-22T19:34:53Z)
A Federated Online Restless Bandit Framework for Cooperative Resource Allocation [23.698976872351576]
MRPの未知系力学を用いた協調資源配分問題について検討する。我々は、このマルチエージェントオンラインRMAB問題を解決するために、フェデレートトンプソン対応Whittle Index(FedTSWI)アルゴリズムを作成した。数値計算の結果,提案アルゴリズムは,ベースラインと比較して,$mathcalO(sqrtTlog(T))$の高速収束率と性能の向上を実現している。
論文参考訳（メタデータ） (2024-06-12T08:34:53Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文参考訳（メタデータ） (2024-04-23T18:09:53Z)
Cooperative Thresholded Lasso for Sparse Linear Bandit [6.52540785559241]
本稿では,マルチエージェント・スパース文脈線形帯域問題に対処する新しい手法を提案する。疎線形帯域における行単位の分散データに対処する最初のアルゴリズムである。後悔を最小限に抑えるために効率的な特徴抽出が重要となる高次元マルチエージェント問題に適用可能である。
論文参考訳（メタデータ） (2023-05-30T16:05:44Z)
Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文参考訳（メタデータ） (2023-04-07T13:41:08Z)
Neural Contextual Bandits via Reward-Biased Maximum Likelihood Estimation [9.69596041242667]
Reward-biased maximum max estimation (RBMLE) は、探索・探索トレードオフに対処するための適応制御文学における古典的な原理である。本稿では,一般有界報酬関数を用いた文脈的バンディット問題について検討し,RBMLEの原理を適用したNeuralRBMLEを提案する。両アルゴリズムは、非線形報酬関数を持つ実世界のデータセットにおける最先端の手法と比較して、同等またはより良い経験的後悔を実現する。
論文参考訳（メタデータ） (2022-03-08T16:33:36Z)
Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement Learning Approach [130.9259586568977]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文参考訳（メタデータ） (2022-02-25T16:17:23Z)
On Reward-Free RL with Kernel and Neural Function Approximations: Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文参考訳（メタデータ） (2021-10-19T07:26:33Z)
Decentralized Graph-Based Multi-Agent Reinforcement Learning Using Reward Machines [5.34590273802424]
報酬処理装置を用いて各エージェントのタスクを符号化し、報酬関数の内部構造を公開する。本稿では,各エージェントに局所的なポリシーを付与する分散グラフに基づく強化学習アルゴリズムを提案する。提案したDGRMアルゴリズムの有効性は,UAVパッケージデリバリーとCOVID-19パンデミック緩和の2つのケーススタディにより評価された。
論文参考訳（メタデータ） (2021-09-30T21:41:55Z)
VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文参考訳（メタデータ） (2020-04-19T18:00:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。