論文の概要: $2 \times 2$ Zero-Sum Games with Commitments and Noisy Observations
- arxiv url: http://arxiv.org/abs/2211.01703v2
- Date: Wed, 10 May 2023 00:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 17:17:55.099562
- Title: $2 \times 2$ Zero-Sum Games with Commitments and Noisy Observations
- Title(参考訳): 2 \times 2$ zero-sum gamesのコミットメントと騒がしい観察
- Authors: Ke Sun, Samir M. Perlaza, and Alain Jean-Marie
- Abstract要約: 2times2$ 0-sum ゲームの平衡は常に存在することが示される。
リーダーの行動を観察することは、フォロワーにとって有益か非物質かのどちらかである。
このゲームの平衡におけるペイオフは、純粋な戦略においてスタックルバーグ均衡(SE)におけるペイオフによって上限づけられる。
- 参考スコア(独自算出の注目度): 1.9654639120238482
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, $2\times2$ zero-sum games are studied under the following
assumptions: $(1)$ One of the players (the leader) commits to choose its
actions by sampling a given probability measure (strategy); $(2)$ The leader
announces its action, which is observed by its opponent (the follower) through
a binary channel; and $(3)$ the follower chooses its strategy based on the
knowledge of the leader's strategy and the noisy observation of the leader's
action. Under these conditions, the equilibrium is shown to always exist.
Interestingly, even subject to noise, observing the actions of the leader is
shown to be either beneficial or immaterial for the follower. More
specifically, the payoff at the equilibrium of this game is upper bounded by
the payoff at the Stackelberg equilibrium (SE) in pure strategies; and lower
bounded by the payoff at the Nash equilibrium, which is equivalent to the SE in
mixed strategies.Finally, necessary and sufficient conditions for observing the
payoff at equilibrium to be equal to its lower bound are presented. Sufficient
conditions for the payoff at equilibrium to be equal to its upper bound are
also presented.
- Abstract(参考訳): この論文では、2\times2$ zero-sumゲームについて、1人のプレイヤー(リーダー)が与えられた確率測度(戦略)をサンプリングしてそのアクションを選択することをコミットする、$(2)$ the leaderが2つのチャンネルを通じて相手(従者)が観察するアクションをアナウンスする、$(3)$ the followerはリーダーの戦略の知識とリーダーの行動のノイズの観察に基づいてその戦略を選択する、という仮定で研究する。
これらの条件下では、平衡は常に存在することが示される。
興味深いことに、リーダーの行動を観察するノイズでさえ、フォロワーにとって有益か非物質的であることが示される。
より具体的には、このゲームの均衡における報酬は、純粋な戦略におけるスタックルベルク均衡(se)での給与によって上限され、混合戦略においてseと同値であるナッシュ平衡での給与によって下限となる。
また、平衡における給与がその上限値と等しくなるための十分な条件も提示される。
関連論文リスト
- Games played by Exponential Weights Algorithms [0.0]
各プレイヤーは、初期混合動作と固定学習率を特徴とする指数重み付けアルゴリズムを使用する。
厳密なナッシュ均衡が存在するときは常に、次の段階で厳密なナッシュ均衡を行う確率は、ほぼ確実に0または1に収束することを示す。
論文 参考訳(メタデータ) (2024-07-09T08:49:51Z) - On Tractable $Φ$-Equilibria in Non-Concave Games [53.212133025684224]
非凹面ゲームはゲーム理論と最適化に重大な課題をもたらす。
Phi$が有限であるとき、対応する$Phi$-equilibriaに収束する効率的な非結合学習アルゴリズムが存在することを示す。
また,オンライングラディエントDescentは,非自明な状況下で効率よく$Phi$-equilibriaを近似できることを示した。
論文 参考訳(メタデータ) (2024-03-13T01:51:30Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Equilibrium Bandits: Learning Optimal Equilibria of Unknown Dynamics [23.722837647516357]
未知のシステムを制御するために、$K$アクションのうちの1つを選ぶことができる意思決定者を考えてみましょう。
システムのダイナミクスは意思決定者にとって未知であり、各ターンの最後にノイズの多い報酬しか観測できない。
既存のバンディットアルゴリズムは、逆数でも、この問題に対して線形な(タウ)後悔を達成する。
均衡に達するまで待つ価値がなければ、素早くアクションを切り替えることを知っている新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T10:47:15Z) - Differentiable Arbitrating in Zero-sum Markov Games [59.62061049680365]
ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。
低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。
上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-20T16:05:04Z) - $O(T^{-1})$ Convergence of Optimistic-Follow-the-Regularized-Leader in
Two-Player Zero-Sum Markov Games [10.915751393257011]
O(T-1)$-approximate Nash equilibrium in $T$ for two-player zero-sum Markov games with full information。
これにより、Zhang et al (2022)に最近示されている$tildeO(T-5/6)$収束率が向上する。
論文 参考訳(メタデータ) (2022-09-26T05:35:44Z) - Safe Equilibrium [1.7132914341329848]
標準的なゲーム理論解の概念であるナッシュ均衡は、すべてのプレイヤーが合理的に振る舞うことを仮定する。
我々は,特定の確率で合理的に行動する相手をモデル化する,セーフ均衡と呼ばれる新しい解の概念を提案する。
我々は、全ての戦略形式ゲームに安全な平衡が存在することを証明し、その計算がPPADハードであることを証明する。
論文 参考訳(メタデータ) (2022-01-12T01:45:51Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - No-regret learning and mixed Nash equilibria: They do not mix [64.37511607254115]
我々はFTRL(Follow-the-regularized-leader)のダイナミクスについて検討する。
厳密でないナッシュ均衡は、FTRLの下で安定して引き寄せることは不可能である。
この結果は,学習過程の結果を予測する上で重要な意味を持つ。
論文 参考訳(メタデータ) (2020-10-19T13:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。