論文の概要: Bayesian Learning in Episodic Zero-Sum Games
- arxiv url: http://arxiv.org/abs/2603.20604v1
- Date: Sat, 21 Mar 2026 02:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.991377
- Title: Bayesian Learning in Episodic Zero-Sum Games
- Title(参考訳): エピソディックゼロサムゲームにおけるベイズ学習
- Authors: Chang-Wei Yueh, Andy Zhao, Ashutosh Nayyar, Rahul Jain,
- Abstract要約: エピソディックな有限ホライゾンゼロサムマルコフゲームにおけるベイズ学習を、未知の遷移モデルと報酬モデルを用いて研究する。
i) 両プレイヤーとも後続サンプリングアルゴリズムを用い, (ii) 相手が任意の学習アルゴリズムに従っている間に, 後続サンプリングを使用するのは1人のみである。
我々の後悔の概念は、真のゲームの均衡政策の下で、学習エージェントが期待する総報酬と、期待する総報酬とを比較した。
- 参考スコア(独自算出の注目度): 6.054775780656854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study Bayesian learning in episodic, finite-horizon zero-sum Markov games with unknown transition and reward models. We investigate a posterior algorithm in which each player maintains a Bayesian posterior over the game model, independently samples a game model at the beginning of each episode, and computes an equilibrium policy for the sampled model. We analyze two settings: (i) Both players use the posterior sampling algorithm, and (ii) Only one player uses posterior sampling while the opponent follows an arbitrary learning algorithm. In each setting, we provide guarantees on the expected regret of the posterior sampling agent. Our notion of regret compares the expected total reward of the learning agent against the expected total reward under equilibrium policies of the true game. Our main theoretical result is an expected regret bound for the posterior sampling agent of order $O(HS\sqrt{ABHK\log(SABHK)})$ where $K$ is the number of episodes, $H$ is the episode length, $S$ is the number of states, and $A,B$ are the action space sizes of the two players. Experiments in a grid-world predator--prey domain illustrate the sublinear regret scaling and show that posterior sampling competes favorably with a fictitious-play baseline.
- Abstract(参考訳): エピソディックな有限ホライゾンゼロサムマルコフゲームにおけるベイズ学習を、未知の遷移モデルと報酬モデルを用いて研究する。
本稿では,各プレイヤーがゲームモデル上でベイズ的後続を保ち,各エピソードの開始時に個別にゲームモデルをサンプリングし,サンプルモデルの平衡ポリシを算出する後続アルゴリズムについて検討する。
私たちは2つの設定を分析します。
(i)両プレーヤーとも後部サンプリングアルゴリズムを用いており、
(ii) 1人のプレイヤーのみが後方サンプリングを使用し、相手は任意の学習アルゴリズムに従う。
各設定において、後部サンプリング剤の期待された後悔を保証します。
我々の後悔の概念は、真のゲームの均衡政策の下で、学習エージェントが期待する総報酬と、期待する総報酬とを比較した。
我々の理論結果は、$O(HS\sqrt{ABHK\log(SABHK)})$,$K$はエピソード数、$H$はエピソード数、$S$は状態数、$A,B$は2人のプレイヤーのアクション空間サイズである。
グリッドワールド捕食者の領域における実験は、サブ線形後悔のスケーリングを示し、後続サンプリングが架空のプレイベースラインと好適に競合することを示す。
関連論文リスト
- Scale-Invariant Fast Convergence in Games [67.02769061793619]
我々は,スケールフリーでもスケール不変でも,高速収束を実現する学習力学を開発した。
2プレーヤゼロサムゲームに対しては、$tildeO(A_mathrmdiff)$で有界な外部後悔を伴うスケールフリーかつスケール不変のダイナミクスが得られる。
マルチプレイヤーの汎用ゲームでは、過去の観測に基づいて観察された勾配をクリップする2倍のクリッピングと呼ばれる手法によって、スケールフリーの学習も可能となる。
論文 参考訳(メタデータ) (2026-02-12T11:57:20Z) - Instance-Dependent Regret Bounds for Learning Two-Player Zero-Sum Games with Bandit Feedback [60.610120215789976]
純粋な戦略 ナッシュ均衡が存在するとき、$c$ は 0 となり、最適のインスタンス依存後悔境界となることを示す。
また,本アルゴリズムは最終段階の収束性も享受し,ほぼ最適サンプルを用いて純粋な戦略ナッシュ均衡を同定することができる。
論文 参考訳(メタデータ) (2025-02-24T20:20:06Z) - Reinforcement Learning with Segment Feedback [56.54271464134885]
状態ごとの反応フィードバックと軌道フィードバックのギャップを埋める一般的なパラダイムを提供するRLというモデルを考える。
バイナリフィードバックの下では、$m$のセグメント数の増加は指数率で後悔を減少させるが、驚くべきことに、和フィードバックの下では、$m$の増加は後悔を著しく減少させるものではない。
論文 参考訳(メタデータ) (2025-02-03T23:08:42Z) - Policy Mirror Ascent for Efficient and Independent Learning in Mean
Field Games [35.86199604587823]
平均場ゲームは対称および匿名の$N$-playerゲームに対して近似的なナッシュ均衡を得るための理論的ツールとして使われてきた。
ポリシーミラーを実行する$N$エージェントは、$widetildemathcalO(varepsilon-2)$サンプル内で正規化ゲームのナッシュ平衡に収束することを示す。
論文 参考訳(メタデータ) (2022-12-29T20:25:18Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - A Bayesian Learning Algorithm for Unknown Zero-sum Stochastic Games with
an Arbitrary Opponent [9.094186120476174]
ゼロサムゲームのための後サンプリング強化学習(PSRL-ZSG)
ゼロサムゲームのための後サンプリング強化学習(PSRL-ZSG)を提案する。
論文 参考訳(メタデータ) (2021-09-08T02:05:40Z) - Model-Free Learning for Two-Player Zero-Sum Partially Observable Markov
Games with Perfect Recall [34.73929457960903]
本研究では,不完全情報ゲーム(IIG)におけるナッシュ均衡(NE)学習の問題について,自己学習を通して検討する。
Inlicit Exploration Online Mirror Descent (IXOMD)アルゴリズムを提案する。
IXOMD は 1/sqrtT$ の NE への収束率に縛られる確率の高いモデルのないアルゴリズムである。
論文 参考訳(メタデータ) (2021-06-11T09:51:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。