論文の概要: No Algorithmic Collusion in Two-Player Blindfolded Game with Thompson Sampling
- arxiv url: http://arxiv.org/abs/2405.17463v1
- Date: Thu, 23 May 2024 08:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 00:20:06.377101
- Title: No Algorithmic Collusion in Two-Player Blindfolded Game with Thompson Sampling
- Title(参考訳): トンプソンサンプリングによるBlindfoldedゲームにおけるアルゴリズムの衝突
- Authors: Ningyuan Chen, Xuefeng Gao, Yi Xiong,
- Abstract要約: プレイヤーがトンプソンサンプリングを使用すると、ゲームダイナミクスはペイオフ行列の軽度な仮定の下でナッシュ平衡に収束することを示す。
アルゴリズムによる共謀は 発生しない プレイヤーが意図的に 競争戦略を展開していないにもかかわらず
- 参考スコア(独自算出の注目度): 10.376707874029561
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: When two players are engaged in a repeated game with unknown payoff matrices, they may be completely unaware of the existence of each other and use multi-armed bandit algorithms to choose the actions, which is referred to as the ``blindfolded game'' in this paper. We show that when the players use Thompson sampling, the game dynamics converges to the Nash equilibrium under a mild assumption on the payoff matrices. Therefore, algorithmic collusion doesn't arise in this case despite the fact that the players do not intentionally deploy competitive strategies. To prove the convergence result, we find that the framework developed in stochastic approximation doesn't apply, because of the sporadic and infrequent updates of the inferior actions and the lack of Lipschitz continuity. We develop a novel sample-path-wise approach to show the convergence.
- Abstract(参考訳): 2人のプレーヤーが未知のペイオフ行列を持つ繰り返しゲームに従事している場合、両者はお互いの存在を全く認識せず、マルチアームのバンディットアルゴリズムを用いてアクションを選択し、この論文では「ブロードフォールドゲーム」と呼ばれる。
プレイヤーがトンプソンサンプリングを使用すると、ゲームダイナミクスはペイオフ行列の軽度な仮定の下でナッシュ平衡に収束することを示す。
したがって、プレイヤーが意図的に競争戦略を展開していないにもかかわらず、この場合、アルゴリズムによる共謀は発生しない。
収束結果を証明するため、確率近似で発達したフレームワークは、劣悪な作用の散発的かつ頻繁な更新とリプシッツ連続性の欠如により適用されない。
我々は,この収束を示す新しいサンプルパスワイドアプローチを開発した。
関連論文リスト
- Convex Markov Games: A Framework for Fairness, Imitation, and Creativity in Multi-Agent Learning [31.958202912400925]
コンベックス・マルコフゲーム(英語版)のクラスを導入し、占有度よりも一般的なコンベックス・プレイスを可能にする。
無限の時間的地平線とマルコフゲームよりも厳密な一般性にもかかわらず、純粋な戦略 ナッシュ平衡は厳密な凸性の下で存在する。
我々の実験は、最後通しゲームにおける人間の選択を模倣し、繰り返しの囚人のジレンマに対する新しい解決策を明らかにし、反復的な非対称調整ゲームにおいて公正な解決策を見つける。
論文 参考訳(メタデータ) (2024-10-22T00:55:04Z) - Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。
また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文 参考訳(メタデータ) (2024-05-25T10:25:48Z) - Scalable and Independent Learning of Nash Equilibrium Policies in
$n$-Player Stochastic Games with Unknown Independent Chains [1.0878040851638]
独立な連鎖と未知の遷移行列を持つゲームについて研究する。
このクラスのゲームでは、プレイヤーは他のプレイヤーの状態や行動に依存しない内部マルコフ連鎖を制御する。
我々は、$epsilon$-NEポリシーを学ぶために、完全に分散化されたミラー降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-04T03:04:09Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - No-regret learning for repeated non-cooperative games with lossy bandits [5.437709019435926]
本研究では,長期的後悔の損失を最小限に抑えるために,プレイヤーの非同期オンライン学習戦略について検討する。
この論文は、損失帯域付きオンライングラディエントDescent(OGD-lb)と呼ばれる、新しい非回帰学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-05-14T05:02:56Z) - Mixed Nash Equilibria in the Adversarial Examples Game [18.181826693937776]
本稿では,ゲーム理論的な観点からの敵対的例の問題に取り組む。
攻撃者および分類者によって形成されるゼロサムゲームにおける混合ナッシュ平衡の存在のオープンな問題を検討する。
論文 参考訳(メタデータ) (2021-02-13T11:47:20Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - From Poincar\'e Recurrence to Convergence in Imperfect Information
Games: Finding Equilibrium via Regularization [49.368421783733815]
モノトーンゲームにおいて,報酬の適応が強い収束保証を与えることを示す。
また、この報酬適応手法を用いて、Nash平衡に正確に収束するアルゴリズムを構築する方法を示す。
論文 参考訳(メタデータ) (2020-02-19T21:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。