論文の概要: Understanding algorithmic collusion with experience replay
- arxiv url: http://arxiv.org/abs/2102.09139v1
- Date: Thu, 18 Feb 2021 03:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 14:14:23.043256
- Title: Understanding algorithmic collusion with experience replay
- Title(参考訳): 経験的リプレイによるアルゴリズムコリュージョンの理解
- Authors: Bingyan Han
- Abstract要約: 無限に繰り返される価格ゲームでは、人工知能(q-learning)に基づく価格アルゴリズムは、一貫して超競合価格を課金することを学ぶかもしれない。
アルゴリズムの共謀に関する懸念は生じたが、根本的な要因についてはほとんど知られていない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In an infinitely repeated pricing game, pricing algorithms based on
artificial intelligence (Q-learning) may consistently learn to charge
supra-competitive prices even without communication. Although concerns on
algorithmic collusion have arisen, little is known on underlying factors. In
this work, we experimentally analyze the dynamics of algorithms with three
variants of experience replay. Algorithmic collusion still has roots in human
preferences. Randomizing experience yields prices close to the static Bertrand
equilibrium and higher prices are easily restored by favoring the latest
experience. Moreover, relative performance concerns also stabilize the
collusion. Finally, we investigate the scenarios with heterogeneous agents and
test robustness on various factors.
- Abstract(参考訳): 無限に繰り返される価格ゲームでは、人工知能(q-learning)に基づく価格設定アルゴリズムは、コミュニケーションなしでも常に超競合価格を課金することを学ぶ。
アルゴリズムの共謀に関する懸念は生じたが、根本的な要因についてはほとんど知られていない。
本研究では,3種類の経験再生によるアルゴリズムのダイナミクスを実験的に解析する。
アルゴリズムコリュージョンは依然として人間の好みに根ざしている。
ランダム化経験は静的なベルトランド均衡に近い価格をもたらし、最新の経験を好んで高い価格が容易に回復される。
さらに、相対的なパフォーマンスの懸念も共謀を安定化させる。
最後に, 異種剤によるシナリオの解明と各種因子に対するロバスト性試験を行った。
関連論文リスト
- Strategically-Robust Learning Algorithms for Bidding in First-Price
Auctions [13.474384048001259]
ゲーム理論と機械学習のインターフェースにおいて,プライスオークションを繰り返し競うことの学習は基本的な問題である。
本稿では,プライスオークションにおける純ストラテジー入札のための新しいコンケーブの定式化を提案し,この問題に対する自然なグラディエント・アセンセント・アルゴリズムの解析に利用した。
論文 参考訳(メタデータ) (2024-02-12T01:33:33Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [56.457634640638254]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Autobidders with Budget and ROI Constraints: Efficiency, Regret, and
Pacing Dynamics [77.67037372500495]
オンライン広告プラットフォームで競合するオートバイディングアルゴリズムのゲームについて検討する。
本稿では,全ての制約を満たすことを保証し,個人の後悔を解消する勾配に基づく学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T21:59:30Z) - Towards Multi-Agent Reinforcement Learning driven Over-The-Counter
Market Simulations [16.48389671789281]
オーバー・ザ・カウンタ市場において,流動性提供者と流動性取扱業者が相互作用するゲームについて検討した。
互いに対戦することで、深層強化学習主体のエージェントは創発的な行動を学ぶ。
遷移性仮定の下で,多エージェントポリシー勾配アルゴリズムの収束率を示す。
論文 参考訳(メタデータ) (2022-10-13T17:06:08Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Artificial Intelligence and Spontaneous Collusion [0.0]
我々は,学習アルゴリズム間の戦略的相互作用を研究するための抽出可能なモデルを開発した。
アルゴリズム的共謀の出現の原因となるメカニズムを明らかにする。
自然結合は、価格と市場シェアの共謀を持続できることを示す。
論文 参考訳(メタデータ) (2022-02-12T00:50:15Z) - Online Search With Best-Price and Query-Based Predictions [2.3204178451683264]
本稿では,入力に関する誤予測が存在する可能性のある学習増強アルゴリズムについて検討する。
株式市場から得られたデータに関する実験結果を提供する。
論文 参考訳(メタデータ) (2021-12-02T20:18:37Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - Winning at Any Cost -- Infringing the Cartel Prohibition With
Reinforcement Learning [1.1470070927586016]
電子商取引のシナリオでは、複数の強化学習エージェントが競争相手の価格に基づいて価格を設定することができる。
我々は、囚人のジレンマの修正版に基づくシナリオを構築し、3人のエージェントが岩の紙ハサミのゲームをする。
以上の結果から,行動選択は特定の段階に分けて行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-07-05T08:21:52Z) - Revisiting Smoothed Online Learning [70.09792747315323]
オンライン学習者がヒットコストとスイッチングコストの両方に苦しむスムーズなオンライン学習の問題を調査します。
競争比を縛るために、各ラウンドで打つコストが学習者に知られていると仮定し、打つコストと切り換えコストの重み付け合計を単純に最小化する勾配アルゴリズムを調査します。
論文 参考訳(メタデータ) (2021-02-13T14:15:55Z) - Adversarial Attacks on Linear Contextual Bandits [87.08004581867537]
悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。
悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。
また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
論文 参考訳(メタデータ) (2020-02-10T15:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。