論文の概要: Online Learning for Incentive-Based Demand Response
- arxiv url: http://arxiv.org/abs/2303.15617v1
- Date: Mon, 27 Mar 2023 22:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 17:08:20.424420
- Title: Online Learning for Incentive-Based Demand Response
- Title(参考訳): インセンティブに基づく需要応答のためのオンライン学習
- Authors: Deepan Muthirayan, and Pramod P. Khargonekar
- Abstract要約: 我々は、需要応答(DR)リソースを管理するためにオンライン学習の問題を考察する。
報酬価格の摂動を考慮した最小二乗を用いたオンライン学習手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the problem of learning online to manage Demand
Response (DR) resources. A typical DR mechanism requires the DR manager to
assign a baseline to the participating consumer, where the baseline is an
estimate of the counterfactual consumption of the consumer had it not been
called to provide the DR service. A challenge in estimating baseline is the
incentive the consumer has to inflate the baseline estimate. We consider the
problem of learning online to estimate the baseline and to optimize the
operating costs over a period of time under such incentives. We propose an
online learning scheme that employs least-squares for estimation with a
perturbation to the reward price (for the DR services or load curtailment) that
is designed to balance the exploration and exploitation trade-off that arises
with online learning. We show that, our proposed scheme is able to achieve a
very low regret of $\mathcal{O}\left((\log{T})^2\right)$ with respect to the
optimal operating cost over $T$ days of the DR program with full knowledge of
the baseline, and is individually rational for the consumers to participate.
Our scheme is significantly better than the averaging type approach, which only
fetches $\mathcal{O}(T^{1/3})$ regret.
- Abstract(参考訳): 本稿では,需要対応(dr)リソースを管理するためのオンライン学習の課題について考察する。
典型的なdrメカニズムでは、drマネージャは、drサービスの提供のために呼び出されていない消費者の反事実消費を推定するベースラインとして、参加する消費者にベースラインを割り当てる必要がある。
ベースライン推定の課題は、消費者がベースライン推定を膨らませなければならないインセンティブである。
このようなインセンティブの下で,オンライン学習の課題は,ベースラインを推定し,運用コストを一定期間に最適化することにある。
本稿では,オンライン学習に伴う探索と搾取のトレードオフのバランスをとるために,報酬価格(drサービスや負荷削減)に対する摂動を伴う推定に最小2乗を用いるオンライン学習方式を提案する。
提案手法は,DRプログラムの最適運用コストが,ベースラインの知識を十分に備えた$T$日を超えることに対して,$\mathcal{O}\left((\log{T})^2\right)$の非常に低い後悔を達成でき,消費者が参加する上で合理的であることを示す。
これは$\mathcal{o}(t^{1/3})$ regretのみを取得する平均型アプローチよりもはるかに優れている。
関連論文リスト
- Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Learning to Schedule Online Tasks with Bandit Feedback [7.671139712158846]
オンラインタスクスケジューリングは、クラウドコンピューティングやクラウドソーシングにおけるタスク集約型アプリケーションにおいて重要な役割を果たす。
本稿では,二重最適化学習に基づくRobins-Monro(DOL-RM)アルゴリズムを提案する。
DOL-RMは、報酬対コスト比の楽観的な推定と決定モジュールを組み込んだ学習モジュールを統合する。
論文 参考訳(メタデータ) (2024-02-26T10:11:28Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - TransPath: Learning Heuristics For Grid-Based Pathfinding via
Transformers [64.88759709443819]
探索の効率を顕著に向上させると考えられる,インスタンス依存のプロキシを学習することを提案する。
私たちが最初に学ぶことを提案するプロキシは、補正係数、すなわち、インスタンスに依存しないコスト・ツー・ゴの見積もりと完璧な見積もりの比率である。
第2のプロキシはパス確率であり、グリッドセルが最も短いパスに横たわっている可能性を示している。
論文 参考訳(メタデータ) (2022-12-22T14:26:11Z) - Network Revenue Management with Demand Learning and Fair
Resource-Consumption Balancing [16.37657820732206]
本稿では,需要学習と公平な資源消費バランスの両面から,価格に基づくネットワーク収益管理(NRM)問題について検討する。
正規化収益を最大化するために,UCB (Upper-Confidence-Bound) 要求学習手法を用いた原始二重型オンラインポリシーを提案する。
我々のアルゴリズムは、$widetilde O(N5/2sqrtT)$の最悪の後悔を達成し、$N$は製品数を表し、$T$は期間数を表す。
論文 参考訳(メタデータ) (2022-07-22T15:55:49Z) - Smoothed Online Convex Optimization Based on Discounted-Normal-Predictor [68.17855675511602]
円滑なオンライン凸最適化(SOCO)のためのオンライン予測戦略について検討する。
提案アルゴリズムは,各区間の切替コストで適応的後悔を最小限に抑えることができることを示す。
論文 参考訳(メタデータ) (2022-05-02T08:48:22Z) - Offline Deep Reinforcement Learning for Dynamic Pricing of Consumer
Credit [0.0]
オフライン深層学習における最近の進歩を利用した消費者信用の価格設定手法を提案する。
このアプローチは静的なデータセットに依存しており、要求の関数形式を前提としません。
論文 参考訳(メタデータ) (2022-03-06T16:32:53Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Online Residential Demand Response via Contextual Multi-Armed Bandits [8.817815952311676]
住宅需要応答(DR)における大きな課題の1つは、未知かつ不確実な顧客行動を扱うことである。
従来の研究は学習技術を用いて顧客のDR行動を予測するが、時間的な環境要因の影響は概して無視される。
本稿では,LSE(Load Service entity)が顧客の最適サブセットを選択して,財務予算で期待される負荷削減を最大化することを目的とした住宅DR問題について考察する。
トンプソンサンプリングに基づくオンライン学習と選択(OLS)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-07T18:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。