論文の概要: Decentralized Online Learning in General-Sum Stackelberg Games
- arxiv url: http://arxiv.org/abs/2405.03158v1
- Date: Mon, 6 May 2024 04:35:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 14:54:58.359536
- Title: Decentralized Online Learning in General-Sum Stackelberg Games
- Title(参考訳): General-Sum Stackelberg Gamesにおける分散オンライン学習
- Authors: Yaolong Yu, Haipeng Chen,
- Abstract要約: プレイヤーが分散的かつ戦略的に行動する一般のStackelbergゲームにおいて,オンライン学習問題を研究する。
我々は、フォロワーにとって、リーダーの行動にミオプティカルに最も反応することが、限られた情報設定にとって最良の戦略であることを示す。
後者の設定では、フォロワーに対する新たな操作戦略を設計し、最良の応答戦略に対して本質的な優位性を示す。
- 参考スコア(独自算出の注目度): 2.8659922790025463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study an online learning problem in general-sum Stackelberg games, where players act in a decentralized and strategic manner. We study two settings depending on the type of information for the follower: (1) the limited information setting where the follower only observes its own reward, and (2) the side information setting where the follower has extra side information about the leader's reward. We show that for the follower, myopically best responding to the leader's action is the best strategy for the limited information setting, but not necessarily so for the side information setting -- the follower can manipulate the leader's reward signals with strategic actions, and hence induce the leader's strategy to converge to an equilibrium that is better off for itself. Based on these insights, we study decentralized online learning for both players in the two settings. Our main contribution is to derive last-iterate convergence and sample complexity results in both settings. Notably, we design a new manipulation strategy for the follower in the latter setting, and show that it has an intrinsic advantage against the best response strategy. Our theories are also supported by empirical results.
- Abstract(参考訳): プレイヤーが分散的かつ戦略的に行動する一般のStackelbergゲームにおいて,オンライン学習問題を研究する。
本研究では,フォロワーに対する情報の種類によって異なる2つの設定について検討する。(1)フォロワーが自分の報酬のみを観察する限定情報設定,(2)フォロワーがリーダーの報奨に関する情報を付加する側情報設定である。
追随者にとって、リーダーの行動に最善を尽くすのは、限られた情報設定にとって最良の戦略であるが、必ずしも側からの情報設定のためにはそうではない。
これらの知見に基づき,両選手を対象とした分散オンライン学習について検討した。
私たちの主な貢献は、両方の設定で最終項目の収束とサンプルの複雑さの結果を導き出すことです。
特に、後者の設定において、従者に対する新たな操作戦略を設計し、最良の応答戦略に対して本質的な優位性を示す。
私たちの理論も実証的な結果によって裏付けられている。
関連論文リスト
- Learnability Gaps of Strategic Classification [68.726857356532]
我々は,戦略的分類と標準学習の間にある学習可能性のギャップという,根本的な問題に対処することに注力する。
ほぼ厳密なサンプルの複雑さと後悔の限界を提供し、以前の結果よりも大幅に改善します。
この設定における我々のアルゴリズムは、独立して興味を持ち、マルチラベル学習のような他の問題にも適用できる。
論文 参考訳(メタデータ) (2024-02-29T16:09:19Z) - Regret Minimization in Stackelberg Games with Side Information [44.72865997906019]
両プレイヤーがプレー前に外部コンテキストを観察するサイド情報付きStackelbergゲームを定式化する。
リーダーは(コンテキストに依存した)戦略をコミットし、フォロワーはリーダーの戦略とコンテキストの両方に最もよく対応します。
非コンテクストバージョンとは対照的に、完全な対向的な設定では、リーダが優れたパフォーマンス(後悔によって測定される)を達成することは不可能であることを示す。
論文 参考訳(メタデータ) (2024-02-13T16:24:57Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Learning to Manipulate a Commitment Optimizer [14.806314018261416]
最近の研究によると、スタックルバーグのゲームでは、フォロワーは真のベストレスポンス行動から逸脱してリーダーを操作することができる。
これらの発見が示すリスクは、操作が依存する厳密な情報によってある程度軽減されているように見える。
まずは、フォロワーがリーダーの報酬に関する情報を与えられず、リーダーと対話して操作を学ばなければならないシナリオを考えます。
論文 参考訳(メタデータ) (2023-02-23T07:39:37Z) - Online Learning in Stackelberg Games with an Omniscient Follower [83.42564921330896]
オンライン学習の課題を2人のプレイヤーによる分散協調型Stackelbergゲームで検討する。
各ラウンドで、まずリーダーが行動を起こし、次にリーダーの動きを観察した後に行動を起こすフォロワーが続く。
報酬構造によっては、全能なフォロワーの存在が、サンプルの複雑さを大きく変える可能性があることを示す。
論文 参考訳(メタデータ) (2023-01-27T03:35:10Z) - Who Leads and Who Follows in Strategic Classification? [82.44386576129295]
戦略分類における役割の順序は、決定者とエージェントが互いの行動に適応する相対周波数によって決定される。
更新頻度を自由に選択できる意思決定者は,いずれの順番でスタックルバーグ均衡に収束する学習力学を誘導できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:48:46Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Optimally Deceiving a Learning Leader in Stackelberg Games [123.14187606686006]
MLコミュニティの最近の結果は、リーダーがStackelbergゲームでコミットする最適な戦略を計算するために使用される学習アルゴリズムが、フォロワーによる操作に影響を受けやすいことを明らかにしている。
本稿は、リーダーとフォロワー間の学習相互作用に関する様々なシナリオにおいて、フォロワーが(最適に近い)ペイオフを計算することは、常に可能であることを示す。
論文 参考訳(メタデータ) (2020-06-11T16:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。