論文の概要: ReLExS: Reinforcement Learning Explanations for Stackelberg No-Regret Learners
- arxiv url: http://arxiv.org/abs/2408.14086v1
- Date: Mon, 26 Aug 2024 08:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 14:42:58.981776
- Title: ReLExS: Reinforcement Learning Explanations for Stackelberg No-Regret Learners
- Title(参考訳): ReLExS: StackelbergのNo-Regret学習者のための強化学習説明
- Authors: Xiangge Huang, Jingyuan Li, Jiaqing Xie,
- Abstract要約: 従者戦略が報酬平均か変換逆平均かのどちらかである場合、2人のプレイヤーは常にスタックルバーグ均衡を得ることができることを示す。
また、追従者の効用差の厳密な上限を、後悔の制約を伴わずに示す。
- 参考スコア(独自算出の注目度): 1.4849645397321183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the constraint of a no regret follower, will the players in a two-player Stackelberg game still reach Stackelberg equilibrium? We first show when the follower strategy is either reward-average or transform-reward-average, the two players can always get the Stackelberg Equilibrium. Then, we extend that the players can achieve the Stackelberg equilibrium in the two-player game under the no regret constraint. Also, we show a strict upper bound of the follower's utility difference between with and without no regret constraint. Moreover, in constant-sum two-player Stackelberg games with non-regret action sequences, we ensure the total optimal utility of the game remains also bounded.
- Abstract(参考訳): 後悔しないフォロワーの制約により、2人プレイのStackelbergゲームのプレイヤーは未だにStackelberg均衡に達するだろうか?
最初に、フォロワー戦略が報酬平均か変換逆平均かのどちらかである場合、2人のプレイヤーは常にStackelberg Equilibriumを取得できることを示す。
そして,2人プレイヤゲームにおけるスタックルバーグ均衡を,後悔しない制約の下で達成できることを拡張した。
また,追従者の効用性差の厳密な上限を,後悔の制約を伴わずに示す。
さらに、非regretアクションシーケンスを持つ定数サム2プレーヤのStackelbergゲームでは、ゲーム全体の最適性も引き続き有界であることを保証する。
関連論文リスト
- Neural Operators Can Play Dynamic Stackelberg Games [9.058593115274336]
ダイナミック・スタックバーグゲーム(Dynamic Stackelberg game)は、リーダーが最初に行動する2人プレイのゲームで、フォロワーはリーダーの戦略に対する反応戦略を選択する。
本稿では,textitfollowerのベストレスポンス演算子を,textitattentionに基づくニューラル演算子によって概ね実装できることを示し,この問題に対処する。
追従者が最適応答演算子を使用するスタックルバーグゲームの価値は、元のスタックルバーグゲームの価値を近似することを示す。
論文 参考訳(メタデータ) (2024-11-14T18:12:06Z) - Is Learning in Games Good for the Learners? [14.781100349601587]
2人のエージェント間の繰り返しのゲームプレイにおいて、報酬と後悔の間のトレードオフを考慮する。
このような平衡は、任意の相手に対する後悔の保証を維持するアルゴリズムのペアによって到達可能であることを示す。
また,ゲーム開始時において,未学習エージェントとの繰り返しプレイを通じて報酬-最適戦略を学習する問題についても検討する。
論文 参考訳(メタデータ) (2023-05-31T02:10:27Z) - Online Learning in Stackelberg Games with an Omniscient Follower [83.42564921330896]
オンライン学習の課題を2人のプレイヤーによる分散協調型Stackelbergゲームで検討する。
各ラウンドで、まずリーダーが行動を起こし、次にリーダーの動きを観察した後に行動を起こすフォロワーが続く。
報酬構造によっては、全能なフォロワーの存在が、サンプルの複雑さを大きく変える可能性があることを示す。
論文 参考訳(メタデータ) (2023-01-27T03:35:10Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Learning Correlated Stackelberg Equilibrium in General-Sum
Multi-Leader-Single-Follower Games [16.810700878778007]
本研究では、非対称な役割を持つプレイヤーをリーダーとフォロワーに分けることができる階層型マルチプレイヤーゲーム構造について検討する。
特に、複数のリーダーと1人のフォロワーがいるStackelbergのゲームシナリオに焦点を当てています。
我々は、CSE(Correlated Stackelberg Equilibrium)と呼ばれるMLSFゲームのための新しい非対称平衡概念を提案する。
論文 参考訳(メタデータ) (2022-10-22T15:05:44Z) - Robust No-Regret Learning in Min-Max Stackelberg Games [1.6500749121196987]
本研究は,Min-maxゲームにおける非regret学習の挙動について考察する。
非回帰力学がスタックルバーグ平衡に収束することを示す。
OMD のダイナミクスは,オンライン min-max Stackelberg ゲームの大規模なクラスでは堅牢であることを示す。
論文 参考訳(メタデータ) (2022-03-26T18:12:40Z) - Can Reinforcement Learning Find Stackelberg-Nash Equilibria in
General-Sum Markov Games with Myopic Followers? [156.5760265539888]
我々は,マルチプレイヤーのジェネラルサムマルコフゲームについて,リーダーに指名されたプレイヤーとフォロワーに指名されたプレイヤーの1人を用いて研究した。
そのようなゲームに対して、我々のゴールは、政策対 $(pi*, nu*)$ であるスタックルバーグ・ナッシュ均衡 (SNE) を見つけることである。
オンラインとオフラインの両方でSNEを解くために,サンプル効率強化学習(RL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-12-27T05:41:14Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - Online Learning in Unknown Markov Games [55.07327246187741]
未知のマルコフゲームでオンライン学習を学ぶ。
後方視における最良の反応に対するサブ線形後悔の達成は統計的に困難であることを示す。
サブ線形$tildemathcalO(K2/3)$ regretを$K$のエピソード後に達成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-28T14:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。