論文の概要: Model-free Reinforcement Learning for Stochastic Stackelberg Security
Games
- arxiv url: http://arxiv.org/abs/2005.11853v1
- Date: Sun, 24 May 2020 22:34:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 14:09:16.126805
- Title: Model-free Reinforcement Learning for Stochastic Stackelberg Security
Games
- Title(参考訳): 確率的スタックルバーグセキュリティゲームのためのモデルフリー強化学習
- Authors: Rajesh K Mishra, Deepanshu Vasal, and Sriram Vishwanath
- Abstract要約: リーダーとフォロワーの2人のプレイヤーによる連続的なStackelbergゲームについて検討する。
フォロワーはシステムの状態にアクセスでき、リーダーはアクセスしない。
本稿では,MDPのモデルをシミュレートして,スタックルバーグ均衡政策を学習する予測サーサに基づくRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.470839530834359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider a sequential stochastic Stackelberg game with two
players, a leader and a follower. The follower has access to the state of the
system while the leader does not. Assuming that the players act in their
respective best interests, the follower's strategy is to play the best response
to the leader's strategy. In such a scenario, the leader has the advantage of
committing to a policy which maximizes its own returns given the knowledge that
the follower is going to play the best response to its policy. Thus, both
players converge to a pair of policies that form the Stackelberg equilibrium of
the game. Recently,~[1] provided a sequential decomposition algorithm to
compute the Stackelberg equilibrium for such games which allow for the
computation of Markovian equilibrium policies in linear time as opposed to
double exponential, as before. In this paper, we extend the idea to an MDP
whose dynamics are not known to the players, to propose an RL algorithm based
on Expected Sarsa that learns the Stackelberg equilibrium policy by simulating
a model of the MDP. We use particle filters to estimate the belief update for a
common agent which computes the optimal policy based on the information which
is common to both the players. We present a security game example to illustrate
the policy learned by our algorithm. by simulating a model of the MDP. We use
particle filters to estimate the belief update for a common agent which
computes the optimal policy based on the information which is common to both
the players. We present a security game example to illustrate the policy
learned by our algorithm.
- Abstract(参考訳): 本稿では,2人のプレーヤー,リーダーと従者からなる連続確率的スタックルバーグゲームについて考察する。
フォロワーはシステムの状態にアクセスできますが、リーダーはアクセスしません。
プレイヤーがそれぞれの最善を尽くすと仮定すると、参加者の戦略はリーダーの戦略に対する最良の反応を果たすことである。
このようなシナリオにおいて、リーダーは、フォロワーがそのポリシーに対して最高のレスポンスを果たすという知識から、自身のリターンを最大化するポリシーにコミットする利点がある。
したがって、両方のプレイヤーはゲームのスタックルバーグ均衡を形成する一対のポリシーに収束する。
最近、−[1] はこのようなゲームのスタックルバーグ均衡を計算するために逐次分解アルゴリズムを提供し、前述したように二重指数関数とは対照的に、マルコフ平衡ポリシーを線形時間で計算できるようになった。
本稿では,この概念をプレイヤーに知られていないMDPに拡張し,MDPのモデルをシミュレートしてスタックルバーグ均衡政策を学習する予測サーサに基づくRLアルゴリズムを提案する。
プレーヤ双方に共通する情報に基づいて最適なポリシーを計算する共通エージェントの信念更新を推定するために粒子フィルタを用いる。
アルゴリズムによって学習されたポリシーを説明するためのセキュリティゲーム例を示す。
mdpのモデルをシミュレートすることで
プレーヤ双方に共通する情報に基づいて最適なポリシーを計算する共通エージェントの信念更新を推定するために粒子フィルタを用いる。
アルゴリズムによって学習されたポリシーを説明するためのセキュリティゲーム例を示す。
関連論文リスト
- Blending Data-Driven Priors in Dynamic Games [9.085463548798366]
Kullback-Leibler (KL) 正規化による非協調的ダイナミックゲームの解法を定式化する。
我々は,KLGameのNash平衡戦略を,マルチモーダル近似フィードバックをリアルタイムに計算するための効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-21T23:22:32Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Policy Optimization for Markov Games: Unified Framework and Faster
Convergence [81.3266426402464]
このアルゴリズムのステートワイド平均ポリシはゲームの近似ナッシュ平衡(NE)に収束することを示す。
このアルゴリズムをマルチプレイヤー一般のMarkov Gamesに拡張し、CCE(Correlated Equilibria)への$mathcalwidetildeO(T-1/2)$収束率を示す。
論文 参考訳(メタデータ) (2022-06-06T14:23:13Z) - No-Regret Learning in Dynamic Stackelberg Games [31.001205916012307]
Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。
このゲームは、リーダーの報酬や利用可能な戦略に影響を与える基礎となる状態空間を持ち、リーダーとフォロワーの選択した戦略に依存するマルコフ的な方法で進化する。
論文 参考訳(メタデータ) (2022-02-10T01:07:57Z) - Can Reinforcement Learning Find Stackelberg-Nash Equilibria in
General-Sum Markov Games with Myopic Followers? [156.5760265539888]
我々は,マルチプレイヤーのジェネラルサムマルコフゲームについて,リーダーに指名されたプレイヤーとフォロワーに指名されたプレイヤーの1人を用いて研究した。
そのようなゲームに対して、我々のゴールは、政策対 $(pi*, nu*)$ であるスタックルバーグ・ナッシュ均衡 (SNE) を見つけることである。
オンラインとオフラインの両方でSNEを解くために,サンプル効率強化学習(RL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-12-27T05:41:14Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z) - Provable Fictitious Play for General Mean-Field Games [111.44976345867005]
静止平均場ゲームのための強化学習アルゴリズムを提案する。
目標は、ナッシュ均衡を構成する平均場状態と定常政策のペアを学ぶことである。
論文 参考訳(メタデータ) (2020-10-08T18:46:48Z) - Efficient Competitive Self-Play Policy Optimization [20.023522000925094]
対戦型ゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。
本手法は,複数のエージェントを同時に訓練し,単純な対戦ルールに基づいて知的に互いに相手として取り合う。
我々は,このアルゴリズムが凸凹ゲームにおいて高い確率で近似平衡に収束することを理論的に証明する。
論文 参考訳(メタデータ) (2020-09-13T21:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。