論文の概要: Online Learning in Stackelberg Games with an Omniscient Follower
- arxiv url: http://arxiv.org/abs/2301.11518v1
- Date: Fri, 27 Jan 2023 03:35:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 16:32:05.604840
- Title: Online Learning in Stackelberg Games with an Omniscient Follower
- Title(参考訳): Omniscient FollowerによるStackelbergゲームにおけるオンライン学習
- Authors: Geng Zhao, Banghua Zhu, Jiantao Jiao, Michael I. Jordan
- Abstract要約: オンライン学習の課題を2人のプレイヤーによる分散協調型Stackelbergゲームで検討する。
各ラウンドで、まずリーダーが行動を起こし、次にリーダーの動きを観察した後に行動を起こすフォロワーが続く。
報酬構造によっては、全能なフォロワーの存在が、サンプルの複雑さを大きく変える可能性があることを示す。
- 参考スコア(独自算出の注目度): 83.42564921330896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of online learning in a two-player decentralized
cooperative Stackelberg game. In each round, the leader first takes an action,
followed by the follower who takes their action after observing the leader's
move. The goal of the leader is to learn to minimize the cumulative regret
based on the history of interactions. Differing from the traditional
formulation of repeated Stackelberg games, we assume the follower is
omniscient, with full knowledge of the true reward, and that they always
best-respond to the leader's actions. We analyze the sample complexity of
regret minimization in this repeated Stackelberg game. We show that depending
on the reward structure, the existence of the omniscient follower may change
the sample complexity drastically, from constant to exponential, even for
linear cooperative Stackelberg games. This poses unique challenges for the
learning process of the leader and the subsequent regret analysis.
- Abstract(参考訳): オンライン学習の課題を2人のプレイヤーによる分散協調型Stackelbergゲームで検討する。
各ラウンドにおいて、リーダーはまず行動を起こし、続いてリーダーの動きを観察した後に行動を起こす従者が続く。
リーダーの目標は、対話の歴史に基づいて累積的な後悔を最小限に抑えることを学ぶことです。
繰り返し行われるスタックルバーグのゲームの伝統的な定式化から逸脱し、従者は全能であり、真の報酬を十分に知っており、常にリーダーの行動に最もよく対応していると仮定する。
この反復スタッケルバーグゲームにおける後悔の最小化のサンプル複雑性を分析した。
報酬構造により,全科学的従者の存在は,線形協調スタッケルバーグゲームにおいても,サンプル複雑性を定数から指数関数へと劇的に変化させる可能性がある。
これはリーダーの学習プロセスとその後の後悔の分析に特有の課題をもたらす。
関連論文リスト
- Neural Operators Can Play Dynamic Stackelberg Games [9.058593115274336]
ダイナミック・スタックバーグゲーム(Dynamic Stackelberg game)は、リーダーが最初に行動する2人プレイのゲームで、フォロワーはリーダーの戦略に対する反応戦略を選択する。
本稿では,textitfollowerのベストレスポンス演算子を,textitattentionに基づくニューラル演算子によって概ね実装できることを示し,この問題に対処する。
追従者が最適応答演算子を使用するスタックルバーグゲームの価値は、元のスタックルバーグゲームの価値を近似することを示す。
論文 参考訳(メタデータ) (2024-11-14T18:12:06Z) - ReLExS: Reinforcement Learning Explanations for Stackelberg No-Regret Learners [1.4849645397321183]
従者戦略が報酬平均か変換逆平均かのどちらかである場合、2人のプレイヤーは常にスタックルバーグ均衡を得ることができることを示す。
また、追従者の効用差の厳密な上限を、後悔の制約を伴わずに示す。
論文 参考訳(メタデータ) (2024-08-26T08:12:26Z) - Decentralized Online Learning in General-Sum Stackelberg Games [2.8659922790025463]
プレイヤーが分散的かつ戦略的に行動する一般のStackelbergゲームにおいて,オンライン学習問題を研究する。
我々は、フォロワーにとって、リーダーの行動にミオプティカルに最も反応することが、限られた情報設定にとって最良の戦略であることを示す。
後者の設定では、フォロワーに対する新たな操作戦略を設計し、最良の応答戦略に対して本質的な優位性を示す。
論文 参考訳(メタデータ) (2024-05-06T04:35:01Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Learning Correlated Stackelberg Equilibrium in General-Sum
Multi-Leader-Single-Follower Games [16.810700878778007]
本研究では、非対称な役割を持つプレイヤーをリーダーとフォロワーに分けることができる階層型マルチプレイヤーゲーム構造について検討する。
特に、複数のリーダーと1人のフォロワーがいるStackelbergのゲームシナリオに焦点を当てています。
我々は、CSE(Correlated Stackelberg Equilibrium)と呼ばれるMLSFゲームのための新しい非対称平衡概念を提案する。
論文 参考訳(メタデータ) (2022-10-22T15:05:44Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Online Learning in Unknown Markov Games [55.07327246187741]
未知のマルコフゲームでオンライン学習を学ぶ。
後方視における最良の反応に対するサブ線形後悔の達成は統計的に困難であることを示す。
サブ線形$tildemathcalO(K2/3)$ regretを$K$のエピソード後に達成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-28T14:52:15Z) - Optimally Deceiving a Learning Leader in Stackelberg Games [123.14187606686006]
MLコミュニティの最近の結果は、リーダーがStackelbergゲームでコミットする最適な戦略を計算するために使用される学習アルゴリズムが、フォロワーによる操作に影響を受けやすいことを明らかにしている。
本稿は、リーダーとフォロワー間の学習相互作用に関する様々なシナリオにおいて、フォロワーが(最適に近い)ペイオフを計算することは、常に可能であることを示す。
論文 参考訳(メタデータ) (2020-06-11T16:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。