論文の概要: Zero-Sum Games with Noisy Observations
- arxiv url: http://arxiv.org/abs/2211.01703v1
- Date: Thu, 3 Nov 2022 10:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 13:09:49.402185
- Title: Zero-Sum Games with Noisy Observations
- Title(参考訳): ノイズ観測によるゼロサムゲーム
- Authors: Ke Sun, Samir M. Perlaza, and Alain Jean-Marie
- Abstract要約: 平衡は常に存在することが示され、ナッシュやスタックルバーグの平衡とはしばしば異なる。
$epsilon$-equilibria は、リーダーがその相手の最良の反応を不当に予測できる最適以下の戦略にコミットする可能性がある。
- 参考スコア(独自算出の注目度): 1.9654639120238482
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, $2 \times 2$ zero-sum games (ZSGs) are studied under the
following assumptions: (1) One of the players (the leader) publicly and
irrevocably commits to choose its actions by sampling a given probability
measure (strategy);(2) The leader announces its action, which is observed by
its opponent (the follower) through a binary channel; and (3) the follower
chooses its strategy based on the knowledge of the leader's strategy and the
noisy observation of the leader's action. Under these conditions, the
equilibrium is shown to always exist and be often different from the Nash and
Stackelberg equilibria. Even subject to noise, observing the actions of the
leader is either beneficial or immaterial to the follower for all possible
commitments. When the commitment is observed subject to a distortion, the
equilibrium does not necessarily exist. Nonetheless, the leader might still
obtain some benefit in some specific cases subject to equilibrium refinements.
For instance, $\epsilon$-equilibria might exist in which the leader commits to
suboptimal strategies that allow unequivocally predicting the best response of
its opponent.
- Abstract(参考訳): 本稿では,(1)プレイヤー(リーダー)の1人が,所定の確率測度(戦略)をサンプリングして行動を選択することを公然と約束し,(2)リーダーが2進路を介して相手(フォロワー)が観察する行動と,(3)リーダーの戦略の知識と,リーダーの行動のうるさい観察に基づいてその戦略を選択することを発表する,という前提の下で,2ドル=ゼロサムゲーム(ZSG)について検討する。
これらの条件下では、平衡は常に存在することが示され、ナッシュ平衡とスタックルバーグ平衡とはしばしば異なる。
ノイズにも拘わらず、リーダーの行動を観察することは、すべての可能なコミットメントに対して、従者にとって有益または非物質である。
コミットメントが歪みによって観測されるとき、平衡は必ずしも存在しない。
それでも、リーダーは、均衡改善の対象となる特定のケースで何らかの利益を得るかもしれない。
例えば、$\epsilon$-equilibriaは、リーダーがその相手の最良の反応を不当に予測できる準最適戦略にコミットする可能性がある。
関連論文リスト
- Games played by Exponential Weights Algorithms [0.0]
各プレイヤーは、初期混合動作と固定学習率を特徴とする指数重み付けアルゴリズムを使用する。
厳密なナッシュ均衡が存在するときは常に、次の段階で厳密なナッシュ均衡を行う確率は、ほぼ確実に0または1に収束することを示す。
論文 参考訳(メタデータ) (2024-07-09T08:49:51Z) - On Tractable $Φ$-Equilibria in Non-Concave Games [53.212133025684224]
非凹面ゲームはゲーム理論と最適化に重大な課題をもたらす。
Phi$が有限であるとき、対応する$Phi$-equilibriaに収束する効率的な非結合学習アルゴリズムが存在することを示す。
また,オンライングラディエントDescentは,非自明な状況下で効率よく$Phi$-equilibriaを近似できることを示した。
論文 参考訳(メタデータ) (2024-03-13T01:51:30Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Equilibrium Bandits: Learning Optimal Equilibria of Unknown Dynamics [23.722837647516357]
未知のシステムを制御するために、$K$アクションのうちの1つを選ぶことができる意思決定者を考えてみましょう。
システムのダイナミクスは意思決定者にとって未知であり、各ターンの最後にノイズの多い報酬しか観測できない。
既存のバンディットアルゴリズムは、逆数でも、この問題に対して線形な(タウ)後悔を達成する。
均衡に達するまで待つ価値がなければ、素早くアクションを切り替えることを知っている新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T10:47:15Z) - Differentiable Arbitrating in Zero-sum Markov Games [59.62061049680365]
ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。
低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。
上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-20T16:05:04Z) - $O(T^{-1})$ Convergence of Optimistic-Follow-the-Regularized-Leader in
Two-Player Zero-Sum Markov Games [10.915751393257011]
O(T-1)$-approximate Nash equilibrium in $T$ for two-player zero-sum Markov games with full information。
これにより、Zhang et al (2022)に最近示されている$tildeO(T-5/6)$収束率が向上する。
論文 参考訳(メタデータ) (2022-09-26T05:35:44Z) - Safe Equilibrium [1.7132914341329848]
標準的なゲーム理論解の概念であるナッシュ均衡は、すべてのプレイヤーが合理的に振る舞うことを仮定する。
我々は,特定の確率で合理的に行動する相手をモデル化する,セーフ均衡と呼ばれる新しい解の概念を提案する。
我々は、全ての戦略形式ゲームに安全な平衡が存在することを証明し、その計算がPPADハードであることを証明する。
論文 参考訳(メタデータ) (2022-01-12T01:45:51Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - No-regret learning and mixed Nash equilibria: They do not mix [64.37511607254115]
我々はFTRL(Follow-the-regularized-leader)のダイナミクスについて検討する。
厳密でないナッシュ均衡は、FTRLの下で安定して引き寄せることは不可能である。
この結果は,学習過程の結果を予測する上で重要な意味を持つ。
論文 参考訳(メタデータ) (2020-10-19T13:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。