論文の概要: Tacit algorithmic collusion in deep reinforcement learning guided price competition: A study using EV charge pricing game
- arxiv url: http://arxiv.org/abs/2401.15108v2
- Date: Fri, 10 May 2024 10:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 20:07:31.312462
- Title: Tacit algorithmic collusion in deep reinforcement learning guided price competition: A study using EV charge pricing game
- Title(参考訳): 深い強化学習による価格競争における暗黙的アルゴリズムによる共謀--EV料金ゲームを用いた検討
- Authors: Diwas Paudel, Tapas K. Das,
- Abstract要約: 複雑な構造を持つゲームの価格設定のプレイヤーは、人工知能(AI)による学習アルゴリズムの採用が増えている。
正準形式のゲームに関する最近の研究は、無から高レベルの暗黙の共謀まで、対照的な主張を示している。
EV充電ハブが価格を動的に変動させることで競争する現実的なゲームを考える。
数値ケーススタディの結果,0.14~0.45の衝突指数値が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Players in pricing games with complex structures are increasingly adopting artificial intelligence (AI) aided learning algorithms to make pricing decisions for maximizing profits. This is raising concern for the antitrust agencies as the practice of using AI may promote tacit algorithmic collusion among otherwise independent players. Recent studies of games in canonical forms have shown contrasting claims ranging from none to a high level of tacit collusion among AI-guided players. In this paper, we examine the concern for tacit collusion by considering a practical game where EV charging hubs compete by dynamically varying their prices. Such a game is likely to be commonplace in the near future as EV adoption grows in all sectors of transportation. The hubs source power from the day-ahead (DA) and real-time (RT) electricity markets as well as from in-house battery storage systems. Their goal is to maximize profits via pricing and efficiently managing the cost of power usage. To aid our examination, we develop a two-step data-driven methodology. The first step obtains the DA commitment by solving a stochastic model. The second step generates the pricing strategies by solving a competitive Markov decision process model using a multi-agent deep reinforcement learning (MADRL) framework. We evaluate the resulting pricing strategies using an index for the level of tacit algorithmic collusion. An index value of zero indicates no collusion (perfect competition) and one indicates full collusion (monopolistic behavior). Results from our numerical case study yield collusion index values between 0.14 and 0.45, suggesting a low to moderate level of collusion.
- Abstract(参考訳): 複雑な構造を持つ価格設定ゲームのプレイヤーは、人工知能(AI)を採用して、利益を最大化するための価格決定を学習アルゴリズムに支援している。
このことが反トラスト機関の懸念を高めている。AIの使用は、他の独立したプレイヤーの間で暗黙のアルゴリズムによる共謀を促進する可能性があるからだ。
近年のカノニカルな形式のゲームの研究は、AI誘導選手の間では、無から高レベルの暗黙の共謀まで、対照的な主張を示している。
本稿では,EV充電ハブが価格を動的に変動させることで競争する現実的なゲームを考えることで,暗黙の共謀に対する懸念を検討する。
EVの採用があらゆる分野の交通機関で拡大するにつれ、このようなゲームは近い将来、一般的になる可能性が高い。
このハブは、デイアヘッド(DA)とリアルタイム(RT)電気市場、および社内バッテリーストレージシステムから電力を供給している。
彼らの目標は、価格で利益を最大化し、消費電力のコストを効率的に管理することである。
そこで本研究では,2段階のデータ駆動手法を開発した。
最初のステップは確率モデルを解くことでDAのコミットメントを得る。
第2のステップは、マルチエージェントディープ強化学習(MADRL)フレームワークを使用して、競合するマルコフ決定プロセスモデルを解決することで、価格戦略を生成する。
我々は,暗黙のアルゴリズムによる共謀の度合いを指標として,結果の価格戦略を評価する。
ゼロの指数値は、衝突(完全な競争)がなく、完全な衝突(独占的行動)を示す。
数値ケーススタディの結果,0.14~0.45の衝突指数値が得られた。
関連論文リスト
- Artificial Intelligence and Algorithmic Price Collusion in Two-sided Markets [9.053163124987535]
両市場において,Qラーニングを用いたAIエージェントが暗黙の共謀にどのように関与するかを検討する。
我々の実験によると、AI駆動プラットフォームはBertrandの競合よりも高いコラシオンレベルを実現している。
ネットワークの外部性の向上は、共謀を著しく向上させ、AIアルゴリズムがそれらを活用して利益を最大化することを示唆している。
論文 参考訳(メタデータ) (2024-07-04T17:57:56Z) - By Fair Means or Foul: Quantifying Collusion in a Market Simulation with Deep Reinforcement Learning [1.5249435285717095]
本研究は、反復価格競争の実験的なオリゴポリーモデルを用いる。
我々は,エージェントが開発する戦略と価格パターンについて検討し,その結果を導出する可能性がある。
以上の結果から,RLをベースとしたAIエージェントは,超競争的価格帯電を特徴とする癒着状態に収束することが示唆された。
論文 参考訳(メタデータ) (2024-06-04T15:35:08Z) - Online Conversion with Switching Costs: Robust and Learning-Augmented
Algorithms [11.582885296330195]
エネルギーとサステナビリティの交差点で発生した問題を捉えるオンライン問題の一群である,スイッチングコストによるオンライン変換について検討する。
本稿では,この問題の決定論的および決定論的変異に対して,競合的(ロバストな)しきい値に基づくアルゴリズムを導入する。
そこで我々は,ブラックボックスのアドバイスを活かした学習強化アルゴリズムを提案し,平均ケース性能を著しく向上させた。
論文 参考訳(メタデータ) (2023-10-31T16:34:49Z) - Autobidders with Budget and ROI Constraints: Efficiency, Regret, and Pacing Dynamics [53.62091043347035]
オンライン広告プラットフォームで競合するオートバイディングアルゴリズムのゲームについて検討する。
本稿では,全ての制約を満たすことを保証し,個人の後悔を解消する勾配に基づく学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T21:59:30Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret
Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。
我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。
DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文 参考訳(メタデータ) (2022-06-03T14:18:05Z) - Winning at Any Cost -- Infringing the Cartel Prohibition With
Reinforcement Learning [1.1470070927586016]
電子商取引のシナリオでは、複数の強化学習エージェントが競争相手の価格に基づいて価格を設定することができる。
我々は、囚人のジレンマの修正版に基づくシナリオを構築し、3人のエージェントが岩の紙ハサミのゲームをする。
以上の結果から,行動選択は特定の段階に分けて行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-07-05T08:21:52Z) - Understanding algorithmic collusion with experience replay [0.0]
無限に繰り返される価格ゲームでは、人工知能(q-learning)に基づく価格アルゴリズムは、一貫して超競合価格を課金することを学ぶかもしれない。
アルゴリズムの共謀に関する懸念は生じたが、根本的な要因についてはほとんど知られていない。
論文 参考訳(メタデータ) (2021-02-18T03:28:41Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z) - Adversarial Attacks on Linear Contextual Bandits [87.08004581867537]
悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。
悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。
また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
論文 参考訳(メタデータ) (2020-02-10T15:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。