論文の概要: Learning to Charge More: A Theoretical Study of Collusion by Q-Learning Agents
- arxiv url: http://arxiv.org/abs/2505.22909v1
- Date: Wed, 28 May 2025 22:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.563692
- Title: Learning to Charge More: A Theoretical Study of Collusion by Q-Learning Agents
- Title(参考訳): より多くを充電する学習:Qラーニングエージェントによる衝突の理論的研究
- Authors: Cristian Chica, Yinglong Guo, Gilad Lerman,
- Abstract要約: 無限反復ゲームにおいて、この振る舞いに関する最初の理論的説明を提供する。
ゲームが1段階のナッシュ均衡価格と共謀誘発価格の両方を許容すると、企業は相反する価格を一貫して請求することを学ぶ。
- 参考スコア(独自算出の注目度): 9.053163124987535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is growing experimental evidence that $Q$-learning agents may learn to charge supracompetitive prices. We provide the first theoretical explanation for this behavior in infinite repeated games. Firms update their pricing policies based solely on observed profits, without computing equilibrium strategies. We show that when the game admits both a one-stage Nash equilibrium price and a collusive-enabling price, and when the $Q$-function satisfies certain inequalities at the end of experimentation, firms learn to consistently charge supracompetitive prices. We introduce a new class of one-memory subgame perfect equilibria (SPEs) and provide conditions under which learned behavior is supported by naive collusion, grim trigger policies, or increasing strategies. Naive collusion does not constitute an SPE unless the collusive-enabling price is a one-stage Nash equilibrium, whereas grim trigger policies can.
- Abstract(参考訳): Q$-learningエージェントが超競争的な価格で料金を請求することを学べる、という実験的な証拠が増えている。
無限反復ゲームにおいて、この振る舞いに関する最初の理論的説明を提供する。
企業は、均衡戦略を計算せずに、観測された利益のみに基づいて価格ポリシーを更新する。
ゲームが1段階のナッシュ均衡価格とコラシブエナリング価格の両方を認め、実験終了後に$Q$関数が一定の不等式を満たすと、企業は相反する価格を一貫して請求することを学ぶ。
我々は,1メモリサブゲーム完全均衡(SPE)の新たなクラスを導入し,学習行動がナイーブ・コラシエーション,グリム・トリガー・ポリシー,あるいは戦略の増大によって支持される条件を提供する。
ネイブ・コラシオンは1段階のナッシュ均衡を保たなければSPEを構成しないが、グリム・トリガー・ポリシーは可能である。
関連論文リスト
- Revenue Maximization Under Sequential Price Competition Via The Estimation Of s-Concave Demand Functions [24.586053819490985]
われわれは、複数の売り手の間での価格競争をT$の期間で検討している。
売り手は価格を同時に提供し、それぞれの需要を競合相手に見つからないように監視する。
すべての売り手が当社の政策を採用すると、その価格がナッシュ均衡価格に対して$O(T-1/7)のレートで収束し、もし売り手が十分に情報を得たらリーチできることが示される。
論文 参考訳(メタデータ) (2025-03-20T22:51:03Z) - Instance-Dependent Regret Bounds for Learning Two-Player Zero-Sum Games with Bandit Feedback [60.610120215789976]
純粋な戦略 ナッシュ均衡が存在するとき、$c$ は 0 となり、最適のインスタンス依存後悔境界となることを示す。
また,本アルゴリズムは最終段階の収束性も享受し,ほぼ最適サンプルを用いて純粋な戦略ナッシュ均衡を同定することができる。
論文 参考訳(メタデータ) (2025-02-24T20:20:06Z) - On Tractable $Φ$-Equilibria in Non-Concave Games [53.212133025684224]
非コンケーブゲームにおいて、抽出可能な$Phi$-equilibriaについて検討する。
Phi$が有限であるとき、対応する$Phi$-equilibriaに収束する効率的な非結合学習アルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2024-03-13T01:51:30Z) - Tacit algorithmic collusion in deep reinforcement learning guided price competition: A study using EV charge pricing game [0.0]
複雑な構造を持つゲームの価格設定のプレイヤーは、人工知能(AI)による学習アルゴリズムの採用が増えている。
正準形式のゲームに関する最近の研究は、無から高レベルの暗黙の共謀まで、対照的な主張を示している。
EV充電ハブが価格を動的に変動させることで競争する現実的なゲームを考える。
数値ケーススタディの結果,0.14~0.45の衝突指数値が得られた。
論文 参考訳(メタデータ) (2024-01-25T16:51:52Z) - A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。
単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文 参考訳(メタデータ) (2023-06-12T23:48:24Z) - Learning Stationary Nash Equilibrium Policies in $n$-Player Stochastic
Games with Independent Chains [2.132096006921048]
我々は、プレイヤーがペイオフ機能を介して結合されている間、内部の状態/行動空間を持つ、$n$プレイヤゲームのクラスを考える。
このクラスのゲームに対して、報奨関数を仮定せずに定常ナッシュ(NE)ポリシーを見つけることは、対話可能であることを示す。
我々は,2重平均化と2重ミラー降下に基づくアルゴリズムを開発し,これを$epsilon$-NEポリシーの集合に収束させる。
論文 参考訳(メタデータ) (2022-01-28T16:27:21Z) - Understanding algorithmic collusion with experience replay [0.0]
無限に繰り返される価格ゲームでは、人工知能(q-learning)に基づく価格アルゴリズムは、一貫して超競合価格を課金することを学ぶかもしれない。
アルゴリズムの共謀に関する懸念は生じたが、根本的な要因についてはほとんど知られていない。
論文 参考訳(メタデータ) (2021-02-18T03:28:41Z) - No-regret learning and mixed Nash equilibria: They do not mix [64.37511607254115]
我々はFTRL(Follow-the-regularized-leader)のダイナミクスについて検討する。
厳密でないナッシュ均衡は、FTRLの下で安定して引き寄せることは不可能である。
この結果は,学習過程の結果を予測する上で重要な意味を持つ。
論文 参考訳(メタデータ) (2020-10-19T13:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。