論文の概要: Winning at Any Cost -- Infringing the Cartel Prohibition With
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.01856v1
- Date: Mon, 5 Jul 2021 08:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 20:15:37.495404
- Title: Winning at Any Cost -- Infringing the Cartel Prohibition With
Reinforcement Learning
- Title(参考訳): いかなるコストでも勝つ - 強化学習によるカルテル禁止を侵害する
- Authors: Michael Schlechtinger, Damaris Kosack, Heiko Paulheim, Thomas Fetzer
- Abstract要約: 電子商取引のシナリオでは、複数の強化学習エージェントが競争相手の価格に基づいて価格を設定することができる。
我々は、囚人のジレンマの修正版に基づくシナリオを構築し、3人のエージェントが岩の紙ハサミのゲームをする。
以上の結果から,行動選択は特定の段階に分けて行うことが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pricing decisions are increasingly made by AI. Thanks to their ability to
train with live market data while making decisions on the fly, deep
reinforcement learning algorithms are especially effective in taking such
pricing decisions. In e-commerce scenarios, multiple reinforcement learning
agents can set prices based on their competitor's prices. Therefore, research
states that agents might end up in a state of collusion in the long run. To
further analyze this issue, we build a scenario that is based on a modified
version of a prisoner's dilemma where three agents play the game of rock paper
scissors. Our results indicate that the action selection can be dissected into
specific stages, establishing the possibility to develop collusion prevention
systems that are able to recognize situations which might lead to a collusion
between competitors. We furthermore provide evidence for a situation where
agents are capable of performing a tacit cooperation strategy without being
explicitly trained to do so.
- Abstract(参考訳): 価格決定はAIによってますます行われる。
生の市場データをトレーニングしながら意思決定を行う能力のおかげで、深い強化学習アルゴリズムは、このような価格決定を特に効果的に行うことができる。
eコマースのシナリオでは、複数の強化学習エージェントが競合の価格に基づいて価格を設定することができる。
したがって、研究によれば、エージェントは長い目で見れば共謀状態になる可能性がある。
この問題をさらに分析するため、3人のエージェントがロックペーパーのハサミのゲームをする囚人のジレンマの修正版に基づいてシナリオを構築する。
以上の結果から,行動選択は特定の段階に区分でき,競合間の結束につながる可能性のある状況を認識することが可能な結束防止システムを開発することが可能であることが示唆された。
さらに,エージェントが明示的に訓練されることなくタシット連携戦略を遂行できる状況の証拠を提供する。
関連論文リスト
- Naive Algorithmic Collusion: When Do Bandit Learners Cooperate and When Do They Compete? [0.0]
アルゴリズムエージェントは、さまざまな競争上の決定設定で使用される。
エージェントが競合する状況で使用されるマルチアーム帯域幅機械学習アルゴリズムの動作について検討する。
これらの文脈自由な盗賊は、相手の選択や結果の知識がないまま、相変わらず共謀行動を学ぶことを示している。
論文 参考訳(メタデータ) (2024-11-25T16:58:07Z) - Artificial Intelligence and Algorithmic Price Collusion in Two-sided Markets [9.053163124987535]
両市場において,Qラーニングを用いたAIエージェントが暗黙の共謀にどのように関与するかを検討する。
我々の実験によると、AI駆動プラットフォームはBertrandの競合よりも高いコラシオンレベルを実現している。
ネットワークの外部性の向上は、共謀を著しく向上させ、AIアルゴリズムがそれらを活用して利益を最大化することを示唆している。
論文 参考訳(メタデータ) (2024-07-04T17:57:56Z) - Tacit algorithmic collusion in deep reinforcement learning guided price competition: A study using EV charge pricing game [0.0]
複雑な構造を持つゲームの価格設定のプレイヤーは、人工知能(AI)による学習アルゴリズムの採用が増えている。
正準形式のゲームに関する最近の研究は、無から高レベルの暗黙の共謀まで、対照的な主張を示している。
EV充電ハブが価格を動的に変動させることで競争する現実的なゲームを考える。
数値ケーススタディの結果,0.14~0.45の衝突指数値が得られた。
論文 参考訳(メタデータ) (2024-01-25T16:51:52Z) - Designing an attack-defense game: how to increase robustness of
financial transaction models via a competition [69.08339915577206]
金融セクターにおける悪意ある攻撃のエスカレートリスクを考えると、機械学習モデルの敵戦略と堅牢な防御メカニズムを理解することが重要である。
本研究の目的は、逐次的な財務データを入力として使用するニューラルネットワークモデルに対する敵攻撃と防御の現状とダイナミクスを調査することである。
我々は、現代の金融取引データにおける問題の現実的かつ詳細な調査を可能にする競争を設計した。
参加者は直接対決するので、実生活に近い環境で攻撃や防御が検討される。
論文 参考訳(メタデータ) (2023-08-22T12:53:09Z) - Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。
我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-08-19T15:49:30Z) - Stochastic Market Games [10.979093424231532]
我々は、市場力を利用して、エージェントが協力的になるためのインセンティブを提供することを提案する。
プリソナーズ・ジレンマの反復版で示されているように、提案された市場の定式化はゲームのダイナミクスを変えることができる。
市場の存在は、全体的な結果と、取引活動を通じて個々のリターンを代理する双方を改善することができることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-15T10:37:16Z) - Detecting adversaries in Crowdsourcing [71.20185379303479]
本研究は, クラウドソース型分類における敵の影響を, 人気のダウィド・アンド・スケネモデルを用いて検討する。
敵は、クラウドソーシングモデルから任意に逸脱することを許され、潜在的に協力する可能性がある。
我々は,アノテータ応答の2次モーメント構造を利用して,多数の敵を識別し,クラウドソーシングタスクへの影響を軽減するアプローチを開発した。
論文 参考訳(メタデータ) (2021-10-07T15:07:07Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Multi-Issue Bargaining With Deep Reinforcement Learning [0.0]
本稿では,バーゲティングゲームにおける深層強化学習の活用について検討する。
入札と受け入れ戦略のために2つのアクター・クリティカル・ネットワークが訓練された。
ニューラルエージェントは時間ベースのエージェントを活用することを学び、決定優先値の明確な遷移を達成する。
彼らはまた、譲歩、割引要因、行動に基づく戦略の異なる組み合わせに対して適応的な行動を示す。
論文 参考訳(メタデータ) (2020-02-18T18:33:46Z) - Adversarial Attacks on Linear Contextual Bandits [87.08004581867537]
悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。
悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。
また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
論文 参考訳(メタデータ) (2020-02-10T15:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。