論文の概要: Learning Correlated Stackelberg Equilibrium in General-Sum
Multi-Leader-Single-Follower Games
- arxiv url: http://arxiv.org/abs/2210.12470v1
- Date: Sat, 22 Oct 2022 15:05:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:29:42.346847
- Title: Learning Correlated Stackelberg Equilibrium in General-Sum
Multi-Leader-Single-Follower Games
- Title(参考訳): 汎用マルチリーダーシングルスローアゲームにおける学習関連Stackelberg平衡
- Authors: Yaolong Yu, Haifeng Xu, Haipeng Chen
- Abstract要約: 本研究では、非対称な役割を持つプレイヤーをリーダーとフォロワーに分けることができる階層型マルチプレイヤーゲーム構造について検討する。
特に、複数のリーダーと1人のフォロワーがいるStackelbergのゲームシナリオに焦点を当てています。
我々は、CSE(Correlated Stackelberg Equilibrium)と呼ばれるMLSFゲームのための新しい非対称平衡概念を提案する。
- 参考スコア(独自算出の注目度): 16.810700878778007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world strategic games involve interactions between multiple
players. We study a hierarchical multi-player game structure, where players
with asymmetric roles can be separated into leaders and followers, a setting
often referred to as Stackelberg game or leader-follower game. In particular,
we focus on a Stackelberg game scenario where there are multiple leaders and a
single follower, called the Multi-Leader-Single-Follower (MLSF) game. We
propose a novel asymmetric equilibrium concept for the MLSF game called
Correlated Stackelberg Equilibrium (CSE). We design online learning algorithms
that enable the players to interact in a distributed manner, and prove that it
can achieve no-external Stackelberg-regret learning. This further translates to
the convergence to approximate CSE via a reduction from no-external regret to
no-swap regret. At the core of our works, we solve the intricate problem of how
to learn equilibrium in leader-follower games with noisy bandit feedback by
balancing exploration and exploitation in different learning structures.
- Abstract(参考訳): 多くの実世界の戦略ゲームは複数のプレイヤー間の相互作用を伴う。
本研究では,非対称な役割を持つプレイヤーをリーダーとフォロワーに分ける階層型マルチプレイヤーゲーム構造について検討する。
特に,マルチリーダー・シングルフォロワー(MLSF)ゲームと呼ばれる,複数のリーダと1人の従者が存在する,Stackelbergのゲームシナリオに注目した。
我々はCSE(Correlated Stackelberg Equilibrium)と呼ばれるMLSFゲームのための新しい非対称平衡概念を提案する。
オンライン学習アルゴリズムを設計し、プレイヤーが分散的に対話できるようにし、外部のStackelberg-regret学習を達成できることを証明する。
これはさらに、非外部的後悔から非スワップ的後悔への還元を通じて近似cseへの収束を意味する。
本研究の核心は,異なる学習構造における探索と搾取のバランスをとることで,ノイズの多いバンディットフィードバックを用いて,リーダーフォローゲームにおける均衡の学習方法に関する複雑な問題を解くことにある。
関連論文リスト
- ReLExS: Reinforcement Learning Explanations for Stackelberg No-Regret Learners [1.4849645397321183]
従者戦略が報酬平均か変換逆平均かのどちらかである場合、2人のプレイヤーは常にスタックルバーグ均衡を得ることができることを示す。
また、追従者の効用差の厳密な上限を、後悔の制約を伴わずに示す。
論文 参考訳(メタデータ) (2024-08-26T08:12:26Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Who Plays First? Optimizing the Order of Play in Stackelberg Games with Many Robots [4.146913555716228]
Branch and Play (B&P) は、社会的に最適な遊びの順序とスタックルバーグ均衡に収束する効率的かつ正確なアルゴリズムである。
本稿では,B&Pによる航空交通管制,群れ形成,輸送車両の配車における実用性を実証する。
論文 参考訳(メタデータ) (2024-02-14T15:34:38Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Online Learning in Stackelberg Games with an Omniscient Follower [83.42564921330896]
オンライン学習の課題を2人のプレイヤーによる分散協調型Stackelbergゲームで検討する。
各ラウンドで、まずリーダーが行動を起こし、次にリーダーの動きを観察した後に行動を起こすフォロワーが続く。
報酬構造によっては、全能なフォロワーの存在が、サンプルの複雑さを大きく変える可能性があることを示す。
論文 参考訳(メタデータ) (2023-01-27T03:35:10Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Can Reinforcement Learning Find Stackelberg-Nash Equilibria in
General-Sum Markov Games with Myopic Followers? [156.5760265539888]
我々は,マルチプレイヤーのジェネラルサムマルコフゲームについて,リーダーに指名されたプレイヤーとフォロワーに指名されたプレイヤーの1人を用いて研究した。
そのようなゲームに対して、我々のゴールは、政策対 $(pi*, nu*)$ であるスタックルバーグ・ナッシュ均衡 (SNE) を見つけることである。
オンラインとオフラインの両方でSNEを解くために,サンプル効率強化学習(RL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-12-27T05:41:14Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。