論文の概要: Neural Operators Can Play Dynamic Stackelberg Games
- arxiv url: http://arxiv.org/abs/2411.09644v1
- Date: Thu, 14 Nov 2024 18:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:23:16.528602
- Title: Neural Operators Can Play Dynamic Stackelberg Games
- Title(参考訳): ニューラルネットワークオペレーターがダイナミックなStackelbergゲームをプレイできる
- Authors: Guillermo Alvarez, Ibrahim Ekren, Anastasis Kratsios, Xuwei Yang,
- Abstract要約: ダイナミック・スタックバーグゲーム(Dynamic Stackelberg game)は、リーダーが最初に行動する2人プレイのゲームで、フォロワーはリーダーの戦略に対する反応戦略を選択する。
本稿では,textitfollowerのベストレスポンス演算子を,textitattentionに基づくニューラル演算子によって概ね実装できることを示し,この問題に対処する。
追従者が最適応答演算子を使用するスタックルバーグゲームの価値は、元のスタックルバーグゲームの価値を近似することを示す。
- 参考スコア(独自算出の注目度): 9.058593115274336
- License:
- Abstract: Dynamic Stackelberg games are a broad class of two-player games in which the leader acts first, and the follower chooses a response strategy to the leader's strategy. Unfortunately, only stylized Stackelberg games are explicitly solvable since the follower's best-response operator (as a function of the control of the leader) is typically analytically intractable. This paper addresses this issue by showing that the \textit{follower's best-response operator} can be approximately implemented by an \textit{attention-based neural operator}, uniformly on compact subsets of adapted open-loop controls for the leader. We further show that the value of the Stackelberg game where the follower uses the approximate best-response operator approximates the value of the original Stackelberg game. Our main result is obtained using our universal approximation theorem for attention-based neural operators between spaces of square-integrable adapted stochastic processes, as well as stability results for a general class of Stackelberg games.
- Abstract(参考訳): ダイナミック・スタックバーグゲーム(Dynamic Stackelberg game)は、リーダーが最初に行動する2人プレイのゲームで、フォロワーはリーダーの戦略に対する反応戦略を選択する。
残念なことに、従者のベストレスポンス演算子(リーダーの制御の関数として)が典型的には解析的に難解であるため、スタイリングされたStackelbergゲームのみが明示的に解決可能である。
本稿では, リーダに適応したオープンループ制御のコンパクトなサブセットに一様に基いて, <textit{follower's best-response operator} を \textit{attention-based neural operator} によって概ね実装できることを示し, この問題に対処する。
さらに、追従者が最適応答演算子を使用するスタックルバーグゲームの価値が、元のスタックルバーグゲームの価値に近似していることを示す。
本研究の主な成果は,2乗積分可能適応確率過程の空間間の注意に基づくニューラル作用素に対する普遍近似定理と,一般クラスのスタックルバーグゲームに対する安定性定理を用いて得られる。
関連論文リスト
- When Should a Leader Act Suboptimally? The Role of Inferability in Repeated Stackelberg Games [28.856644679990357]
我々は、リーダーとフォロワーが繰り返し対話する観察結果を用いて、Stackelbergゲームを用いて、推論可能性の問題をモデル化する。
様々なゲーム設定において、不確実性ギャップは、リーダーの戦略の相互作用数とセマンティレベルの関数によって上限づけられていることが示される。
リーダーの準最適戦略が大きな不確実性ギャップに悩まされるような一連のゲームを特定する。
論文 参考訳(メタデータ) (2023-09-30T19:08:05Z) - Follower Agnostic Methods for Stackelberg Games [14.143502615941648]
我々は,複数のフォロワーを対象とするオンラインStackelbergゲームにおいて,フォロワーに依存しない方法で効率よく解決するアルゴリズムを提案する。
私たちのアプローチは、リーダがフォロワーのユーティリティ機能や戦略空間について知識を持っていない場合でも機能します。
論文 参考訳(メタデータ) (2023-02-02T21:21:14Z) - Online Learning in Stackelberg Games with an Omniscient Follower [83.42564921330896]
オンライン学習の課題を2人のプレイヤーによる分散協調型Stackelbergゲームで検討する。
各ラウンドで、まずリーダーが行動を起こし、次にリーダーの動きを観察した後に行動を起こすフォロワーが続く。
報酬構造によっては、全能なフォロワーの存在が、サンプルの複雑さを大きく変える可能性があることを示す。
論文 参考訳(メタデータ) (2023-01-27T03:35:10Z) - No-Regret Learning in Dynamic Stackelberg Games [31.001205916012307]
Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。
このゲームは、リーダーの報酬や利用可能な戦略に影響を与える基礎となる状態空間を持ち、リーダーとフォロワーの選択した戦略に依存するマルコフ的な方法で進化する。
論文 参考訳(メタデータ) (2022-02-10T01:07:57Z) - Can Reinforcement Learning Find Stackelberg-Nash Equilibria in
General-Sum Markov Games with Myopic Followers? [156.5760265539888]
我々は,マルチプレイヤーのジェネラルサムマルコフゲームについて,リーダーに指名されたプレイヤーとフォロワーに指名されたプレイヤーの1人を用いて研究した。
そのようなゲームに対して、我々のゴールは、政策対 $(pi*, nu*)$ であるスタックルバーグ・ナッシュ均衡 (SNE) を見つけることである。
オンラインとオフラインの両方でSNEを解くために,サンプル効率強化学習(RL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-12-27T05:41:14Z) - Stackelberg Actor-Critic: Game-Theoretic Reinforcement Learning
Algorithms [13.649494534428745]
アクター批判に基づく強化学習アルゴリズムにおけるアクターと批評家の階層的相互作用は、ゲーム理論の解釈に自然に結びつく。
そこで我々は,従来の個人勾配ではなく,その目的の全体微分をリーダプレイヤーが追従する,Stackelbergアクタ批判アルゴリズムのメタフレームワークを提案する。
OpenAIのジム環境での実験では、Stackelbergのアクター批判アルゴリズムは常に、少なくとも同じようにパフォーマンスし、標準的なアクター批判アルゴリズムよりもはるかに優れていることが示されている。
論文 参考訳(メタデータ) (2021-09-25T06:18:41Z) - Who Leads and Who Follows in Strategic Classification? [82.44386576129295]
戦略分類における役割の順序は、決定者とエージェントが互いの行動に適応する相対周波数によって決定される。
更新頻度を自由に選択できる意思決定者は,いずれの順番でスタックルバーグ均衡に収束する学習力学を誘導できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:48:46Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - Optimally Deceiving a Learning Leader in Stackelberg Games [123.14187606686006]
MLコミュニティの最近の結果は、リーダーがStackelbergゲームでコミットする最適な戦略を計算するために使用される学習アルゴリズムが、フォロワーによる操作に影響を受けやすいことを明らかにしている。
本稿は、リーダーとフォロワー間の学習相互作用に関する様々なシナリオにおいて、フォロワーが(最適に近い)ペイオフを計算することは、常に可能であることを示す。
論文 参考訳(メタデータ) (2020-06-11T16:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。