論文の概要: Understanding algorithmic collusion with experience replay
- arxiv url: http://arxiv.org/abs/2102.09139v1
- Date: Thu, 18 Feb 2021 03:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 14:14:23.043256
- Title: Understanding algorithmic collusion with experience replay
- Title(参考訳): 経験的リプレイによるアルゴリズムコリュージョンの理解
- Authors: Bingyan Han
- Abstract要約: 無限に繰り返される価格ゲームでは、人工知能(q-learning)に基づく価格アルゴリズムは、一貫して超競合価格を課金することを学ぶかもしれない。
アルゴリズムの共謀に関する懸念は生じたが、根本的な要因についてはほとんど知られていない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In an infinitely repeated pricing game, pricing algorithms based on
artificial intelligence (Q-learning) may consistently learn to charge
supra-competitive prices even without communication. Although concerns on
algorithmic collusion have arisen, little is known on underlying factors. In
this work, we experimentally analyze the dynamics of algorithms with three
variants of experience replay. Algorithmic collusion still has roots in human
preferences. Randomizing experience yields prices close to the static Bertrand
equilibrium and higher prices are easily restored by favoring the latest
experience. Moreover, relative performance concerns also stabilize the
collusion. Finally, we investigate the scenarios with heterogeneous agents and
test robustness on various factors.
- Abstract(参考訳): 無限に繰り返される価格ゲームでは、人工知能(q-learning)に基づく価格設定アルゴリズムは、コミュニケーションなしでも常に超競合価格を課金することを学ぶ。
アルゴリズムの共謀に関する懸念は生じたが、根本的な要因についてはほとんど知られていない。
本研究では,3種類の経験再生によるアルゴリズムのダイナミクスを実験的に解析する。
アルゴリズムコリュージョンは依然として人間の好みに根ざしている。
ランダム化経験は静的なベルトランド均衡に近い価格をもたらし、最新の経験を好んで高い価格が容易に回復される。
さらに、相対的なパフォーマンスの懸念も共謀を安定化させる。
最後に, 異種剤によるシナリオの解明と各種因子に対するロバスト性試験を行った。
関連論文リスト
- Artificial Intelligence and Algorithmic Price Collusion in Two-sided Markets [9.053163124987535]
両市場において,Qラーニングを用いたAIエージェントが暗黙の共謀にどのように関与するかを検討する。
我々の実験によると、AI駆動プラットフォームはBertrandの競合よりも高いコラシオンレベルを実現している。
ネットワークの外部性の向上は、共謀を著しく向上させ、AIアルゴリズムがそれらを活用して利益を最大化することを示唆している。
論文 参考訳(メタデータ) (2024-07-04T17:57:56Z) - By Fair Means or Foul: Quantifying Collusion in a Market Simulation with Deep Reinforcement Learning [1.5249435285717095]
本研究は、反復価格競争の実験的なオリゴポリーモデルを用いる。
我々は,エージェントが開発する戦略と価格パターンについて検討し,その結果を導出する可能性がある。
以上の結果から,RLをベースとしたAIエージェントは,超競争的価格帯電を特徴とする癒着状態に収束することが示唆された。
論文 参考訳(メタデータ) (2024-06-04T15:35:08Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Tacit algorithmic collusion in deep reinforcement learning guided price competition: A study using EV charge pricing game [0.0]
複雑な構造を持つゲームの価格設定のプレイヤーは、人工知能(AI)による学習アルゴリズムの採用が増えている。
正準形式のゲームに関する最近の研究は、無から高レベルの暗黙の共謀まで、対照的な主張を示している。
EV充電ハブが価格を動的に変動させることで競争する現実的なゲームを考える。
数値ケーススタディの結果,0.14~0.45の衝突指数値が得られた。
論文 参考訳(メタデータ) (2024-01-25T16:51:52Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [56.457634640638254]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Artificial Intelligence and Spontaneous Collusion [0.0]
我々は,学習アルゴリズム間の戦略的相互作用を研究するための抽出可能なモデルを開発した。
アルゴリズム的共謀の出現の原因となるメカニズムを明らかにする。
自然結合は、価格と市場シェアの共謀を持続できることを示す。
論文 参考訳(メタデータ) (2022-02-12T00:50:15Z) - Online Search With Best-Price and Query-Based Predictions [2.3204178451683264]
本稿では,入力に関する誤予測が存在する可能性のある学習増強アルゴリズムについて検討する。
株式市場から得られたデータに関する実験結果を提供する。
論文 参考訳(メタデータ) (2021-12-02T20:18:37Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - Revisiting Smoothed Online Learning [70.09792747315323]
オンライン学習者がヒットコストとスイッチングコストの両方に苦しむスムーズなオンライン学習の問題を調査します。
競争比を縛るために、各ラウンドで打つコストが学習者に知られていると仮定し、打つコストと切り換えコストの重み付け合計を単純に最小化する勾配アルゴリズムを調査します。
論文 参考訳(メタデータ) (2021-02-13T14:15:55Z) - Adversarial Attacks on Linear Contextual Bandits [87.08004581867537]
悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。
悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。
また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
論文 参考訳(メタデータ) (2020-02-10T15:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。