論文の概要: Online Residential Demand Response via Contextual Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2003.03627v2
- Date: Sun, 17 May 2020 21:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 20:10:04.577235
- Title: Online Residential Demand Response via Contextual Multi-Armed Bandits
- Title(参考訳): コンテキスト多要素帯域によるオンライン住宅需要応答
- Authors: Xin Chen, Yutong Nie, Na Li
- Abstract要約: 住宅需要応答(DR)における大きな課題の1つは、未知かつ不確実な顧客行動を扱うことである。
従来の研究は学習技術を用いて顧客のDR行動を予測するが、時間的な環境要因の影響は概して無視される。
本稿では,LSE(Load Service entity)が顧客の最適サブセットを選択して,財務予算で期待される負荷削減を最大化することを目的とした住宅DR問題について考察する。
トンプソンサンプリングに基づくオンライン学習と選択(OLS)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.817815952311676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Residential loads have great potential to enhance the efficiency and
reliability of electricity systems via demand response (DR) programs. One major
challenge in residential DR is to handle the unknown and uncertain customer
behaviors. Previous works use learning techniques to predict customer DR
behaviors, while the influence of time-varying environmental factors is
generally neglected, which may lead to inaccurate prediction and inefficient
load adjustment. In this paper, we consider the residential DR problem where
the load service entity (LSE) aims to select an optimal subset of customers to
maximize the expected load reduction with a financial budget. To learn the
uncertain customer behaviors under the environmental influence, we formulate
the residential DR as a contextual multi-armed bandit (MAB) problem, and the
online learning and selection (OLS) algorithm based on Thompson sampling is
proposed to solve it. This algorithm takes the contextual information into
consideration and is applicable to complicated DR settings. Numerical
simulations are performed to demonstrate the learning effectiveness of the
proposed algorithm.
- Abstract(参考訳): 住宅の負荷は需要応答(DR)プログラムによる電力システムの効率性と信頼性を高める大きな可能性を秘めている。
住宅DRにおける大きな課題の1つは、未知かつ不確実な顧客行動を扱うことである。
従来の研究は学習技術を用いて顧客のDR行動を予測するが、時間変化の環境要因の影響は概して無視され、不正確な予測と非効率な負荷調整につながる可能性がある。
本稿では,lse(ロードサービス・エンティティ)が顧客の最適なサブセットを選択し,財務予算で期待される負荷削減を最大化することを目的とした住宅dr問題を考える。
環境影響下での不確実な顧客の振る舞いを学習するために,住宅DRを文脈的マルチアームバンディット(MAB)問題として定式化し,トンプソンサンプリングに基づくオンライン学習と選択(OLS)アルゴリズムを提案する。
このアルゴリズムはコンテキスト情報を考慮に入れ、複雑なDR設定に適用できる。
提案手法の学習効果を示すために数値シミュレーションを行った。
関連論文リスト
- Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Offline Inverse RL: New Solution Concepts and Provably Efficient Algorithms [23.61332577985059]
逆強化学習(IRL)は、行動の実証から専門家の報酬機能を回復することを目的としている。
本稿では、オフライン設定の機会と限界を捉えた、実現可能な報酬セットという新しい概念を紹介する。
論文 参考訳(メタデータ) (2024-02-23T15:49:46Z) - Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term
User Engagement [25.18963930580529]
本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。
AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。
シミュレーションベースとライブシーケンシャルなレコメンデーションタスクの両方において、広範な実証分析を行う。
論文 参考訳(メタデータ) (2023-10-06T02:45:21Z) - Online Learning for Incentive-Based Demand Response [0.0]
我々は、需要応答(DR)リソースを管理するためにオンライン学習の問題を考察する。
報酬価格の摂動を考慮した最小二乗を用いたオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2023-03-27T22:08:05Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Resource Planning for Hospitals Under Special Consideration of the
COVID-19 Pandemic: Optimization and Sensitivity Analysis [87.31348761201716]
新型コロナウイルス(covid-19)パンデミックのような危機は、医療機関にとって深刻な課題となる。
BaBSim.Hospitalは離散イベントシミュレーションに基づく容量計画ツールである。
BaBSim.Hospitalを改善するためにこれらのパラメータを調査し最適化することを目指しています。
論文 参考訳(メタデータ) (2021-05-16T12:38:35Z) - Uncertainty-aware Remaining Useful Life predictor [57.74855412811814]
有効寿命 (Remaining Useful Life, RUL) とは、特定の産業資産の運用期間を推定する問題である。
本研究では,Deep Gaussian Processes (DGPs) を,前述の制限に対する解決策と捉える。
アルゴリズムの性能はNASAの航空機エンジン用N-CMAPSSデータセットで評価される。
論文 参考訳(メタデータ) (2021-04-08T08:50:44Z) - Online Learning and Distributed Control for Residential Demand Response [16.61679791774638]
本稿では,インセンティブに基づく住宅需要応答(DR)における空調負荷の自動制御手法について検討する。
DRイベントにおけるAC制御問題を,室内熱力学と顧客のオプトアウト状態を統合した多周期遷移最適化として定式化する。
本稿では、顧客の振る舞いを学習し、リアルタイムのAC制御スキームを作成するためのオンラインDR制御アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-11T03:52:30Z) - Offline Learning for Planning: A Summary [0.0]
自律的なエージェントの訓練は、しばしば、環境との高価で安全でない試行錯誤の相互作用を必要とする。
さまざまなタスクを実行するインテリジェントエージェントの記録された経験を含むデータセットは、インターネット上でアクセス可能である。
本稿では,最先端のオフライン学習ベースラインの開発を動機とするアイデアを要約する。
論文 参考訳(メタデータ) (2020-10-05T11:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。