Fugu-MT 論文翻訳(概要): Multi-agent Deep Reinforcement Learning for Dynamic Pricing by Fast-charging Electric Vehicle Hubs in ccompetition

論文の概要: Multi-agent Deep Reinforcement Learning for Dynamic Pricing by Fast-charging Electric Vehicle Hubs in ccompetition

arxiv url: http://arxiv.org/abs/2401.15108v1
Date: Thu, 25 Jan 2024 16:51:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 19:47:10.353837
Title: Multi-agent Deep Reinforcement Learning for Dynamic Pricing by Fast-charging Electric Vehicle Hubs in ccompetition
Title（参考訳）: 高速充電電気自動車ハブによる動的価格設定のためのマルチエージェント深部強化学習
Authors: Diwas Paudel, Tapas K. Das
Abstract要約: 電気自動車の高速充電ハブは、間もなく交通電化のための新しいインフラの一部になる。日頭電力市場におけるハブの2段階動的価格設定手法を開発した。 2つの充電ハブ間の価格設定ゲームのための数値ケーススタディを開発した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Fast-charging hubs for electric vehicles will soon become part of the newly built infrastructure for transportation electrification across the world. These hubs are expected to host many DC fast-charging stations and will admit EVs only for charging. Like the gasoline refueling stations, fast-charging hubs in a neighborhood will dynamically vary their prices to compete for the same pool of EV owners. These hubs will interact with the electric power network by making purchase commitments for a significant part of their power needs in the day-ahead (DA) electricity market and meeting the difference from the real-time (RT) market. Hubs may have supplemental battery storage systems (BSS), which they will use for arbitrage. In this paper, we develop a two-step data-driven dynamic pricing methodology for hubs in price competition. We first obtain the DA commitment by solving a stochastic DA commitment model. Thereafter we obtain the hub pricing strategies by modeling the game as a competitive Markov decision process (CMDP) and solving it using a multi-agent deep reinforcement learning (MADRL) approach. We develop a numerical case study for a pricing game between two charging hubs. We solve the case study with our methodology by using combinations of two different DRL algorithms, DQN and SAC, and two different neural networks (NN) architectures, a feed-forward (FF) neural network, and a multi-head attention (MHA) neural network. We construct a measure of collusion (index) using the hub profits. A value of zero for this index indicates no collusion (perfect competition) and a value of one indicates full collusion (monopolistic behavior). Our results show that the collusion index varies approximately between 0.14 and 0.45 depending on the combinations of the algorithms and the architectures chosen by the hubs.
Abstract（参考訳）: 電気自動車の高速充電ハブは、世界中の輸送電化のために新しく建設されたインフラの一部になる。これらのハブは、多くのDC高速充電ステーションをホストし、充電のみのEVを許可する予定である。ガソリン再給油ステーションのように、近所の高速充電ハブは価格を動的に変化させ、同じev所有者のプールと競う。これらのハブは、日頭(DA)電力市場における電力需要のかなりの部分の購入を約束し、リアルタイム(RT)市場との違いを満たすことで、電力ネットワークと相互作用する。ハブには補充バッテリーストレージシステム(BSS)があり、それを仲裁に使用する。本稿では,価格競争におけるハブの2段階データ駆動動的価格決定手法を開発した。まず,確率的DAコミットメントモデルを解くことで,DAコミットメントを得る。その後,競争的マルコフ決定過程 (CMDP) としてゲームをモデル化し,マルチエージェント深部強化学習 (MADRL) アプローチを用いてこれを解くことにより,ハブ価格戦略を得る。 2つの充電ハブ間の価格設定ゲームのための数値ケーススタディを開発した。 dqnとsacという2つの異なるdrlアルゴリズムと、2つの異なるニューラルネットワーク(nn)アーキテクチャ、フィードフォワード(ff)ニューラルネットワーク、マルチヘッドアテンション(mha)ニューラルネットワークの組み合わせを用いて、この手法を用いてケーススタディを解決した。ハブ利益を用いた共謀(インデックス)尺度を構築した。この指数に対する0の値は結束(完全競合)を示しず、1の値は完全な結束(独占的行動)を示す。この結果から,アルゴリズムとハブが選択したアーキテクチャの組み合わせによって,約0.14～0.45の相関指数が変化することがわかった。

関連論文リスト

Naive Algorithmic Collusion: When Do Bandit Learners Cooperate and When Do They Compete? [0.0]
アルゴリズムエージェントは、さまざまな競争上の決定設定で使用される。エージェントが競合する状況で使用されるマルチアーム帯域幅機械学習アルゴリズムの動作について検討する。これらの文脈自由な盗賊は、相手の選択や結果の知識がないまま、相変わらず共謀行動を学ぶことを示している。
論文参考訳（メタデータ） (2024-11-25T16:58:07Z)
Artificial Intelligence and Algorithmic Price Collusion in Two-sided Markets [9.053163124987535]
両市場において,Qラーニングを用いたAIエージェントが暗黙の共謀にどのように関与するかを検討する。我々の実験によると、AI駆動プラットフォームはBertrandの競合よりも高いコラシオンレベルを実現している。ネットワークの外部性の向上は、共謀を著しく向上させ、AIアルゴリズムがそれらを活用して利益を最大化することを示唆している。
論文参考訳（メタデータ） (2024-07-04T17:57:56Z)
By Fair Means or Foul: Quantifying Collusion in a Market Simulation with Deep Reinforcement Learning [1.5249435285717095]
本研究は、反復価格競争の実験的なオリゴポリーモデルを用いる。我々は,エージェントが開発する戦略と価格パターンについて検討し,その結果を導出する可能性がある。以上の結果から,RLをベースとしたAIエージェントは,超競争的価格帯電を特徴とする癒着状態に収束することが示唆された。
論文参考訳（メタデータ） (2024-06-04T15:35:08Z)
Autobidders with Budget and ROI Constraints: Efficiency, Regret, and Pacing Dynamics [53.62091043347035]
オンライン広告プラットフォームで競合するオートバイディングアルゴリズムのゲームについて検討する。本稿では,全ての制約を満たすことを保証し,個人の後悔を解消する勾配に基づく学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-30T21:59:30Z)
Provably Efficient Fictitious Play Policy Optimization for Zero-Sum Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文参考訳（メタデータ） (2022-07-25T18:29:16Z)
Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。 DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文参考訳（メタデータ） (2022-06-03T14:18:05Z)
Winning at Any Cost -- Infringing the Cartel Prohibition With Reinforcement Learning [1.1470070927586016]
電子商取引のシナリオでは、複数の強化学習エージェントが競争相手の価格に基づいて価格を設定することができる。我々は、囚人のジレンマの修正版に基づくシナリオを構築し、3人のエージェントが岩の紙ハサミのゲームをする。以上の結果から,行動選択は特定の段階に分けて行うことが可能であることが示唆された。
論文参考訳（メタデータ） (2021-07-05T08:21:52Z)
Understanding algorithmic collusion with experience replay [0.0]
無限に繰り返される価格ゲームでは、人工知能(q-learning)に基づく価格アルゴリズムは、一貫して超競合価格を課金することを学ぶかもしれない。アルゴリズムの共謀に関する懸念は生じたが、根本的な要因についてはほとんど知られていない。
論文参考訳（メタデータ） (2021-02-18T03:28:41Z)
Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文参考訳（メタデータ） (2021-02-05T14:26:00Z)
Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文参考訳（メタデータ） (2020-02-10T18:44:50Z)
Adversarial Attacks on Linear Contextual Bandits [87.08004581867537]
悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
論文参考訳（メタデータ） (2020-02-10T15:04:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。