論文の概要: Offline Two-Player Zero-Sum Markov Games with KL Regularization
- arxiv url: http://arxiv.org/abs/2605.13025v1
- Date: Wed, 13 May 2026 05:29:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.825776
- Title: Offline Two-Player Zero-Sum Markov Games with KL Regularization
- Title(参考訳): KL正規化によるオフライン2プレイヤーゼロサムマルコフゲーム
- Authors: Claire Chen, Yuheng Zhang, Xinyu Liu, Zixuan Xie, Shuze Daniel Liu, Nan Jiang,
- Abstract要約: オフライン2プレイヤーゼロサムマルコフゲームにおけるナッシュ均衡の学習問題について検討する。
我々はまず,高速な$widetildemathcalO(1/n)$収束率を実現する理論フレームワークであるRegularized Offline Sequential Equilibrium (ROSE)を紹介した。
次に,最小二乗値推定と反復的自己再生更新に基づく実用的モデルフリーアルゴリズムであるSequential Offline Self-play Mirror Descent (SOS-MD)を提案する。
- 参考スコア(独自算出の注目度): 23.339668121961463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning Nash equilibria in offline two-player zero-sum Markov games. While existing approaches often rely on explicit pessimism to address distribution shift, we show that KL regularization alone suffices to stabilize learning and guarantee convergence. We first introduce Regularized Offline Sequential Equilibrium (ROSE), a theoretical framework that achieves a fast $\widetilde{\mathcal{O}}(1/n)$ convergence rate under \textit{unilateral concentrability}, improving over the standard $\widetilde{\mathcal{O}}(1/\sqrt{n})$ rates in unregularized settings. We then propose Sequential Offline Self-play Mirror Descent (SOS-MD), a practical model-free algorithm based on least-squares value estimation and iterative self-play updates. We prove that the last iterate of SOS-MD attains the same $\widetilde{\mathcal{O}}(1/n)$ statistical rate up to a vanishing optimization error of order $\widetilde{\mathcal{O}}(1/\sqrt{T})$ in the number of self-play iterations $T$.
- Abstract(参考訳): オフライン2プレイヤーゼロサムマルコフゲームにおけるナッシュ均衡の学習問題について検討する。
既存の手法はしばしば分布シフトに対処するために明示的な悲観主義に依存するが、KL正規化だけで学習の安定化と収束の保証が十分であることを示す。
まず, 高速な$\widetilde{\mathcal{O}}(1/n)$収束率を, 標準の$\widetilde{\mathcal{O}}(1/\sqrt{n})$非正規化設定で改善する理論フレームワークであるRegularized Offline Sequential Equilibrium(ROSE)を紹介した。
次に,最小二乗値推定と反復的自己再生更新に基づく実用的モデルフリーアルゴリズムであるSequential Offline Self-play Mirror Descent (SOS-MD)を提案する。
我々は、SOS-MDの最後の繰り返しが同じ$\widetilde{\mathcal{O}}(1/n)$統計率に達したことを証明している。
関連論文リスト
- Pessimism-Free Offline Learning in General-Sum Games via KL Regularization [17.179117375703566]
GANE(General-sum Anchored Nash Equilibrium)は、正規化されたナッシュリビアを加速統計速度で回復する。
GAMD(General-sum Anchored Mirror Descent)は、標準レートで粗相関平衡に収束する。
これらの結果は、悲観的なオフライン学習のためのスタンドアロンメカニズムとしてKL正規化を確立する。
論文 参考訳(メタデータ) (2026-04-30T21:58:16Z) - Beyond Pessimism: Offline Learning in KL-regularized Games [20.08179140215738]
KL規則化された2プレイヤーゼロサムゲームにおけるオフライン学習について検討し、KL制約の下でポリシーを固定参照ポリシーに最適化する。
我々は、KL正規化ベストレスポンスの滑らかさと、スキュー対称性によって誘導されるナッシュ平衡の安定性に基づいて、KL正規化ゲームのための新しい悲観的フリーアルゴリズムと解析的フレームワークを開発する。
論文 参考訳(メタデータ) (2026-04-08T07:00:54Z) - Near-Optimal Regret for KL-Regularized Multi-Armed Bandits [54.77408659142336]
KL正規化目標に対するオンライン学習の統計的効率について検討する。
我々は、MABsのKL正規化後悔が$$非依存であることを示し、$tilde(sqrtKT)$とスケールする。
論文 参考訳(メタデータ) (2026-03-02T18:17:33Z) - Enjoying Non-linearity in Multinomial Logistic Bandits [56.28491566735463]
我々は,学習者が期待される報酬を最大化するために行動を選択することで,学習者が環境と相互作用する,多項ロジスティック・バンディット問題を考える。
本稿では,ロジスティックモデルの非線形性の影響を多項集合に拡張し,効率的なアルゴリズムを提案する。
我々のメソッドは、次数 $ smashwidetildemathcalO(R d sqrtKT/kappa_*)$ の問題依存的後悔境界を生じる。
論文 参考訳(メタデータ) (2025-07-07T08:18:25Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Model-Based Reinforcement Learning for Offline Zero-Sum Markov Games [18.832436856339587]
本稿では,オフラインデータから2プレイヤーゼロサムマルコフゲームにおけるナッシュ均衡の学習に向けて前進する。
ベルンシュタイン型低信頼境界を持つ悲観的モデルベースアルゴリズム(VI-LCB-Game)を提案する。
論文 参考訳(メタデータ) (2022-06-08T17:58:06Z) - Almost Optimal Algorithms for Two-player Markov Games with Linear
Function Approximation [92.99933928528797]
同時動作による2プレイヤーゼロサムマルコフゲームの強化学習について検討した。
我々は,「不確かさの最適性」に基づくアルゴリズムナッシュ-UCRL-VTRを提案する。
我々は、Nash-UCRL-VTR が $tildeO(dHsqrtT)$ regret を確実に達成できることを示し、$d$ は線型関数次元である。
論文 参考訳(メタデータ) (2021-02-15T09:09:16Z) - Near-Optimal Reinforcement Learning with Self-Play [50.29853537456737]
我々は,直接の監督なしに自己対決で最適な政策を学習するセルフプレイアルゴリズムに焦点をあてる。
本稿では,サンプル複雑性を$tildemathcalO(SAB)$,サンプル複雑性を$tildemathcalO(S(A+B)$とする新しいemphNash Vラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T05:00:13Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。