論文の概要: Winning at Any Cost -- Infringing the Cartel Prohibition With
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.01856v1
- Date: Mon, 5 Jul 2021 08:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 20:15:37.495404
- Title: Winning at Any Cost -- Infringing the Cartel Prohibition With
Reinforcement Learning
- Title(参考訳): いかなるコストでも勝つ - 強化学習によるカルテル禁止を侵害する
- Authors: Michael Schlechtinger, Damaris Kosack, Heiko Paulheim, Thomas Fetzer
- Abstract要約: 電子商取引のシナリオでは、複数の強化学習エージェントが競争相手の価格に基づいて価格を設定することができる。
我々は、囚人のジレンマの修正版に基づくシナリオを構築し、3人のエージェントが岩の紙ハサミのゲームをする。
以上の結果から,行動選択は特定の段階に分けて行うことが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pricing decisions are increasingly made by AI. Thanks to their ability to
train with live market data while making decisions on the fly, deep
reinforcement learning algorithms are especially effective in taking such
pricing decisions. In e-commerce scenarios, multiple reinforcement learning
agents can set prices based on their competitor's prices. Therefore, research
states that agents might end up in a state of collusion in the long run. To
further analyze this issue, we build a scenario that is based on a modified
version of a prisoner's dilemma where three agents play the game of rock paper
scissors. Our results indicate that the action selection can be dissected into
specific stages, establishing the possibility to develop collusion prevention
systems that are able to recognize situations which might lead to a collusion
between competitors. We furthermore provide evidence for a situation where
agents are capable of performing a tacit cooperation strategy without being
explicitly trained to do so.
- Abstract(参考訳): 価格決定はAIによってますます行われる。
生の市場データをトレーニングしながら意思決定を行う能力のおかげで、深い強化学習アルゴリズムは、このような価格決定を特に効果的に行うことができる。
eコマースのシナリオでは、複数の強化学習エージェントが競合の価格に基づいて価格を設定することができる。
したがって、研究によれば、エージェントは長い目で見れば共謀状態になる可能性がある。
この問題をさらに分析するため、3人のエージェントがロックペーパーのハサミのゲームをする囚人のジレンマの修正版に基づいてシナリオを構築する。
以上の結果から,行動選択は特定の段階に区分でき,競合間の結束につながる可能性のある状況を認識することが可能な結束防止システムを開発することが可能であることが示唆された。
さらに,エージェントが明示的に訓練されることなくタシット連携戦略を遂行できる状況の証拠を提供する。
関連論文リスト
- Designing an attack-defense game: how to increase robustness of
financial transaction models via a competition [69.08339915577206]
金融セクターにおける悪意ある攻撃のエスカレートリスクを考えると、機械学習モデルの敵戦略と堅牢な防御メカニズムを理解することが重要である。
本研究の目的は、逐次的な財務データを入力として使用するニューラルネットワークモデルに対する敵攻撃と防御の現状とダイナミクスを調査することである。
我々は、現代の金融取引データにおける問題の現実的かつ詳細な調査を可能にする競争を設計した。
参加者は直接対決するので、実生活に近い環境で攻撃や防御が検討される。
論文 参考訳(メタデータ) (2023-08-22T12:53:09Z) - "Guinea Pig Trials" Utilizing GPT: A Novel Smart Agent-Based Modeling
Approach for Studying Firm Competition and Collusion [10.721432974840429]
我々は、スマートエージェントが企業を代表し、相互に対話する、スマートエージェントベースモデリング(SABM)と呼ばれる革新的なフレームワークを提案する。
スマートエージェントは意思決定のための広範な知識基盤を持ち、従来のABMエージェントを超越した人間のような戦略能力を示す。
その結果、コミュニケーションがなければ、スマートエージェントは常に暗黙の共謀に到達し、バーランド均衡価格よりも高い値で収束するが、モノポリーやカルテル価格よりも低い値となることが示された。
論文 参考訳(メタデータ) (2023-08-21T18:42:17Z) - Towards Multi-Agent Reinforcement Learning driven Over-The-Counter
Market Simulations [16.48389671789281]
オーバー・ザ・カウンタ市場において,流動性提供者と流動性取扱業者が相互作用するゲームについて検討した。
互いに対戦することで、深層強化学習主体のエージェントは創発的な行動を学ぶ。
遷移性仮定の下で,多エージェントポリシー勾配アルゴリズムの収束率を示す。
論文 参考訳(メタデータ) (2022-10-13T17:06:08Z) - Neural Payoff Machines: Predicting Fair and Stable Payoff Allocations
Among Team Members [13.643650155415484]
ニューラルネットワークをトレーニングすることで,協調的なゲーム理論解を学習モデルに蒸留する方法を示す。
我々の手法はトレーニング分布から遠く離れたゲームに一般化できるモデルを作成する。
私たちのフレームワークの重要な応用は、説明可能なAIです。
論文 参考訳(メタデータ) (2022-08-18T12:33:09Z) - Stochastic Market Games [10.979093424231532]
我々は、市場力を利用して、エージェントが協力的になるためのインセンティブを提供することを提案する。
プリソナーズ・ジレンマの反復版で示されているように、提案された市場の定式化はゲームのダイナミクスを変えることができる。
市場の存在は、全体的な結果と、取引活動を通じて個々のリターンを代理する双方を改善することができることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-15T10:37:16Z) - Detecting adversaries in Crowdsourcing [71.20185379303479]
本研究は, クラウドソース型分類における敵の影響を, 人気のダウィド・アンド・スケネモデルを用いて検討する。
敵は、クラウドソーシングモデルから任意に逸脱することを許され、潜在的に協力する可能性がある。
我々は,アノテータ応答の2次モーメント構造を利用して,多数の敵を識別し,クラウドソーシングタスクへの影響を軽減するアプローチを開発した。
論文 参考訳(メタデータ) (2021-10-07T15:07:07Z) - Who Leads and Who Follows in Strategic Classification? [82.44386576129295]
戦略分類における役割の順序は、決定者とエージェントが互いの行動に適応する相対周波数によって決定される。
更新頻度を自由に選択できる意思決定者は,いずれの順番でスタックルバーグ均衡に収束する学習力学を誘導できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:48:46Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Multi-Issue Bargaining With Deep Reinforcement Learning [0.0]
本稿では,バーゲティングゲームにおける深層強化学習の活用について検討する。
入札と受け入れ戦略のために2つのアクター・クリティカル・ネットワークが訓練された。
ニューラルエージェントは時間ベースのエージェントを活用することを学び、決定優先値の明確な遷移を達成する。
彼らはまた、譲歩、割引要因、行動に基づく戦略の異なる組み合わせに対して適応的な行動を示す。
論文 参考訳(メタデータ) (2020-02-18T18:33:46Z) - Adversarial Attacks on Linear Contextual Bandits [87.08004581867537]
悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。
悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。
また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
論文 参考訳(メタデータ) (2020-02-10T15:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。