論文の概要: Posterior Sampling for Competitive RL: Function Approximation and
Partial Observation
- arxiv url: http://arxiv.org/abs/2310.19861v1
- Date: Mon, 30 Oct 2023 17:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:13:00.866062
- Title: Posterior Sampling for Competitive RL: Function Approximation and
Partial Observation
- Title(参考訳): 競合rlにおける後方サンプリング:関数近似と部分観測
- Authors: Shuang Qiu, Ziyu Dai, Han Zhong, Zhaoran Wang, Zhuoran Yang, Tong
Zhang
- Abstract要約: 我々は,ゼロサムマルコフゲーム(MG)に焦点をあてる。
そこで本研究では,両プレイヤーがナッシュ平衡を学習するためのモデルベース自己再生後サンプリング手法を提案する。
本稿では,潜在的な部分観測可能性を持つ逆MG学習のためのモデルに基づく後部サンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 96.73342437947014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates posterior sampling algorithms for competitive
reinforcement learning (RL) in the context of general function approximations.
Focusing on zero-sum Markov games (MGs) under two critical settings, namely
self-play and adversarial learning, we first propose the self-play and
adversarial generalized eluder coefficient (GEC) as complexity measures for
function approximation, capturing the exploration-exploitation trade-off in
MGs. Based on self-play GEC, we propose a model-based self-play posterior
sampling method to control both players to learn Nash equilibrium, which can
successfully handle the partial observability of states. Furthermore, we
identify a set of partially observable MG models fitting MG learning with the
adversarial policies of the opponent. Incorporating the adversarial GEC, we
propose a model-based posterior sampling method for learning adversarial MG
with potential partial observability. We further provide low regret bounds for
proposed algorithms that can scale sublinearly with the proposed GEC and the
number of episodes $T$. To the best of our knowledge, we for the first time
develop generic model-based posterior sampling algorithms for competitive RL
that can be applied to a majority of tractable zero-sum MG classes in both
fully observable and partially observable MGs with self-play and adversarial
learning.
- Abstract(参考訳): 本稿では,一般関数近似の文脈における競合強化学習(RL)の後方サンプリングアルゴリズムについて検討する。
まず,ゼロサムマルコフゲーム(MG)を,自己学習と逆学習という2つの重要な条件下で焦点を合わせ,機能近似の複雑性尺度として自己学習と逆一般化ユーラダー係数(GEC)を提案する。
自己再生型GCCに基づいて,両プレイヤーがNash平衡を学習し,状態の部分的観測可能性に対処できるモデルベース自己再生後サンプリング手法を提案する。
さらに、MG学習に適合する部分観測可能なMGモデルの集合を、相手の敵のポリシーと同一視する。
本研究は, 対向GECを組み込んで, 潜在的な部分観測可能性を持つ対向MG学習のためのモデルベース後方サンプリング法を提案する。
さらに,提案アルゴリズムに対して,提案するgecおよびエピソード数$t$でサブリニアにスケール可能な低後悔限度を提供する。
我々の知る限り、我々は、完全可観測・部分的に可観測両方のMGクラスにおいて、抽出可能なゼロサムMGクラスの大部分に適用可能な、競争的RLのための汎用モデルベース後方サンプリングアルゴリズムを初めて開発した。
関連論文リスト
- Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - A Self-Play Posterior Sampling Algorithm for Zero-Sum Markov Games [28.227468574464094]
本研究は,多くの包帯および強化学習環境において祝われる,後方サンプリングの異なるアプローチに焦点を当てる。
エピソディックな2プレーヤゼロサムMGに対して,一般関数近似を用いた新しい後方サンプリングアルゴリズムを開発した。
我々の知る限りでは、このアルゴリズムはMGに対して、頻繁な後悔の保証を持つ最初の効率の良い後部サンプリングアルゴリズムである。
論文 参考訳(メタデータ) (2022-10-04T21:08:26Z) - Sample-Efficient Reinforcement Learning of Partially Observable Markov
Games [34.56532481926337]
本稿では,部分観測可能性下でのマルチエージェント強化学習(MARL)の課題について検討する。
我々は、サンプル効率の学習が抽出可能なPOMGの豊富なサブクラス、すなわち弱いPOMGを識別する。
対戦相手と対戦する設定では、楽観的なMLEアルゴリズムの変種がサブ線形後悔を達成することができることを示す。
論文 参考訳(メタデータ) (2022-06-02T21:57:47Z) - Continual Learning with Fully Probabilistic Models [70.3497683558609]
機械学習の完全確率的(または生成的)モデルに基づく継続的学習のアプローチを提案する。
生成器と分類器の両方に対してガウス混合モデル(GMM)インスタンスを用いた擬似リハーサル手法を提案する。
我々は,GMRが,クラス増分学習問題に対して,非常に競合的な時間とメモリの複雑さで,最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-04-19T12:26:26Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z) - Interpretable Learning-to-Rank with Generalized Additive Models [78.42800966500374]
ラーニング・ツー・ランクのモデルの解釈可能性は、非常に重要でありながら、比較的過小評価されている研究分野である。
解釈可能なランキングモデルの最近の進歩は、主に既存のブラックボックスランキングモデルに対するポストホックな説明の生成に焦点を当てている。
一般化加法モデル(GAM)をランキングタスクに導入することにより,本質的に解釈可能な学習 to ランクの基盤を築いた。
論文 参考訳(メタデータ) (2020-05-06T01:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。