論文の概要: Learning to Mitigate AI Collusion on Economic Platforms
- arxiv url: http://arxiv.org/abs/2202.07106v1
- Date: Tue, 15 Feb 2022 00:26:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 15:52:44.307038
- Title: Learning to Mitigate AI Collusion on Economic Platforms
- Title(参考訳): 経済プラットフォーム上でAIコラボレーションを緩和する学習
- Authors: Gianluca Brero, Nicolas Lepore, Eric Mibuari, and David C. Parkes
- Abstract要約: 我々は,RL販売者による共謀防止に有効な購入箱ルールをプラットフォームが学習するために強化学習を使用することを実証した。
我々は、Stackelberg MDPの方法論を採用し、高い消費者福祉を提供し続ける堅牢なルールの学習の成功を実証する。
- 参考スコア(独自算出の注目度): 19.105292496322022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Algorithmic pricing on online e-commerce platforms raises the concern of
tacit collusion, where reinforcement learning algorithms learn to set collusive
prices in a decentralized manner and through nothing more than profit feedback.
This raises the question as to whether collusive pricing can be prevented
through the design of suitable "buy boxes," i.e., through the design of the
rules that govern the elements of e-commerce sites that promote particular
products and prices to consumers. In previous work, Johnson et al. (2020)
designed hand-crafted buy box rules that use demand-steering, based on the
history of pricing by sellers, to prevent collusive behavior. Although
effective against price collusion, these rules effect this by imposing severe
restrictions on consumer choice and consumer welfare. In this paper, we
demonstrate that reinforcement learning (RL) can also be used by platforms to
learn buy box rules that are effective in preventing collusion by RL sellers,
and to do so without reducing consumer choice. For this, we adopt the
methodology of Stackelberg MDPs, and demonstrate success in learning robust
rules that continue to provide high consumer welfare together with sellers
employing different behavior models or having out-of-distribution costs for
goods.
- Abstract(参考訳): オンラインeコマースプラットフォームのアルゴリズムによる価格設定は、強化学習アルゴリズムが分散的価格設定を学習し、利益フィードバックのみを通じて学習するという、暗黙の結束の懸念を提起する。
これは、特定の商品や価格を消費者に売り込むeコマースサイトの要素を規制するルールの設計を通じて、適切な「購入箱」の設計によって、共同価格が防げるかどうかという疑問を提起する。
Johnson et al. (2020) は、売り手による価格設定の歴史に基づいて需要管理を利用する手作りの購入箱ルールを設計した。
価格交渉には効果があるが、消費者選択や消費者福祉に厳しい制限を課すことで効果がある。
本稿では,RL販売者の共謀防止に有効な購入箱ルールをプラットフォームで学習し,消費者の選択を損なうことなく,強化学習(RL)を活用できることを実証する。
そこで我々は,stackelberg mdps の方法論を取り入れ,異なる行動モデルを採用した販売者や商品の流通コストの高い販売者とともに,高い消費者福祉を提供する強固なルールを習得し,その成功を実証する。
関連論文リスト
- A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Tacit algorithmic collusion in deep reinforcement learning guided price competition: A study using EV charge pricing game [0.0]
複雑な構造を持つゲームの価格設定のプレイヤーは、人工知能(AI)による学習アルゴリズムの採用が増えている。
正準形式のゲームに関する最近の研究は、無から高レベルの暗黙の共謀まで、対照的な主張を示している。
EV充電ハブが価格を動的に変動させることで競争する現実的なゲームを考える。
数値ケーススタディの結果,0.14~0.45の衝突指数値が得られた。
論文 参考訳(メタデータ) (2024-01-25T16:51:52Z) - Online Ad Procurement in Non-stationary Autobidding Worlds [10.871587311621974]
本稿では,複数次元決定変数,帯域幅フィードバック,長期不確実な制約を用いたオンライン意思決定のための原始双対アルゴリズムを提案する。
提案アルゴリズムは, 逆数, 逆数, 周期的, エルゴディックな手順により, 調達結果が生成されると, 多くの世界では, 後悔の度合いが低いことを示す。
論文 参考訳(メタデータ) (2023-07-10T00:41:08Z) - Contextual Dynamic Pricing with Strategic Buyers [93.97401997137564]
戦略的買い手によるコンテキスト動的価格問題について検討する。
売り手は買い手の真の特徴を観察せず、買い手の戦略行動に応じて操作された特徴を観察する。
本稿では,販売者の累積収益を最大化するために,購入者の戦略的行動をオンライン学習に取り入れた戦略的動的価格政策を提案する。
論文 参考訳(メタデータ) (2023-07-08T23:06:42Z) - Protecting User Privacy in Online Settings via Supervised Learning [69.38374877559423]
我々は、教師付き学習を活用する、オンラインプライバシ保護に対するインテリジェントなアプローチを設計する。
ユーザのプライバシを侵害する可能性のあるデータ収集を検出してブロックすることにより、ユーザに対してある程度のディジタルプライバシを復元することが可能になります。
論文 参考訳(メタデータ) (2023-04-06T05:20:16Z) - Benchmarking Offline Reinforcement Learning Algorithms for E-Commerce
Order Fraud Evaluation [0.571097144710995]
詐欺の金銭的損失と長期顧客満足度の両方を考慮したシステムを提案する。
オフラインRL法はSimStoreの従来のバイナリ分類法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-05T22:10:13Z) - Characterization of Frequent Online Shoppers using Statistical Learning
with Sparsity [54.26540039514418]
本研究は,小売分析と統計学習のアイデアを疎結合に組み合わせ,買い物客のオンラインギフトストアへの買い物嗜好を学習する方法を報告する。
論文 参考訳(メタデータ) (2021-11-11T05:36:39Z) - Winning at Any Cost -- Infringing the Cartel Prohibition With
Reinforcement Learning [1.1470070927586016]
電子商取引のシナリオでは、複数の強化学習エージェントが競争相手の価格に基づいて価格を設定することができる。
我々は、囚人のジレンマの修正版に基づくシナリオを構築し、3人のエージェントが岩の紙ハサミのゲームをする。
以上の結果から,行動選択は特定の段階に分けて行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-07-05T08:21:52Z) - Learning to Infer User Hidden States for Online Sequential Advertising [52.169666997331724]
本稿では,これらの問題に対処するディープインテントシーケンス広告(DISA)手法を提案する。
解釈可能性の鍵となる部分は、消費者の購入意図を理解することである。
論文 参考訳(メタデータ) (2020-09-03T05:12:26Z) - Dynamic Incentive-aware Learning: Robust Pricing in Contextual Auctions [13.234975857626752]
我々は、文脈的な第2価格オークションにおいて、戦略的買い手に対する準備価格の堅牢な学習の問題を考察する。
このような戦略的行動に頑健な学習方針を提案する。
論文 参考訳(メタデータ) (2020-02-25T19:00:29Z) - Adversarial Attacks on Linear Contextual Bandits [87.08004581867537]
悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。
悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。
また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
論文 参考訳(メタデータ) (2020-02-10T15:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。