論文の概要: Decentralized model-free reinforcement learning in stochastic games with
average-reward objective
- arxiv url: http://arxiv.org/abs/2301.05630v1
- Date: Fri, 13 Jan 2023 15:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 14:26:20.839227
- Title: Decentralized model-free reinforcement learning in stochastic games with
average-reward objective
- Title(参考訳): 平均後退目標を持つ確率ゲームにおける分散モデルフリー強化学習
- Authors: Romain Cravic, Nicolas Gast, Bruno Gaujal
- Abstract要約: 本アルゴリズムは,次数$T3/4$のサブ線形高確率後悔と次数$T2/3$のサブ線形高確率後悔を実現する。
本アルゴリズムは,従来の手法に比べて計算量が少なく,メモリスペースも少ない。
- 参考スコア(独自算出の注目度): 1.9852463786440127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the first model-free algorithm that achieves low regret
performance for decentralized learning in two-player zero-sum tabular
stochastic games with infinite-horizon average-reward objective. In
decentralized learning, the learning agent controls only one player and tries
to achieve low regret performances against an arbitrary opponent. This
contrasts with centralized learning where the agent tries to approximate the
Nash equilibrium by controlling both players. In our infinite-horizon
undiscounted setting, additional structure assumptions is needed to provide
good behaviors of learning processes : here we assume for every strategy of the
opponent, the agent has a way to go from any state to any other. This
assumption is the analogous to the "communicating" assumption in the MDP
setting. We show that our Decentralized Optimistic Nash Q-Learning
(DONQ-learning) algorithm achieves both sublinear high probability regret of
order $T^{3/4}$ and sublinear expected regret of order $T^{2/3}$. Moreover, our
algorithm enjoys a low computational complexity and low memory space
requirement compared to the previous works of (Wei et al. 2017) and
(Jafarnia-Jahromi et al. 2021) in the same setting.
- Abstract(参考訳): 本研究では,無限水平平均回帰目標を持つ2プレイヤーゼロサムテーブル型確率ゲームにおいて,分散学習における低遅延性能を実現する最初のモデルフリーアルゴリズムを提案する。
分散学習において、学習エージェントは1人のプレイヤーのみを制御し、相手に対して低い後悔度を達成しようとする。
これは、エージェントが両方のプレイヤーを制御してナッシュ均衡を近似しようとする集中学習とは対照的である。
ここで、我々は相手のあらゆる戦略について仮定し、エージェントは任意の状態から他の状態に移行する方法を持っている。
この仮定は、MDPの設定における「コミュニケーション」仮定と類似している。
分散最適化ナッシュQラーニング(DONQ-learning)アルゴリズムは,次数$T^{3/4}$と次数$T^{2/3}$の次数$サブ線形高確率後悔(sublinear high probability regret)を実現する。
さらに,本アルゴリズムは,前回の (Wei et al. 2017) や (Jafarnia-Jahromi et al. 2021) と比較して計算量が少なく,メモリスペースも少ない。
関連論文リスト
- Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Provably Efficient Reinforcement Learning in Decentralized General-Sum
Markov Games [5.205867750232226]
本稿では,一般のマルコフゲームにおいて平衡を効率的に学習する問題に対処する。
本稿では,各エージェントが独立して楽観的なV-ラーニングを実行し,未知の環境を効率的に探索するアルゴリズムを提案する。
エージェントは少なくとも$widetildeO(H6S A /epsilon2)$ episodesで$epsilon$-approximate CCEを見つけることができる。
論文 参考訳(メタデータ) (2021-10-12T02:01:22Z) - Towards General Function Approximation in Zero-Sum Markov Games [126.58493169301012]
本稿では,同時移動を伴う2プレーヤゼロサム有限ホライゾンマルコフゲームについて考察する。
分離された設定とコーディネートされた設定の両方の効率的なアルゴリズムが開発されている。
論文 参考訳(メタデータ) (2021-07-30T15:25:13Z) - Decentralized Q-Learning in Zero-sum Markov Games [33.81574774144886]
ゼロサムマルコフゲームにおけるマルチエージェント強化学習(MARL)について検討した。
我々は、合理的かつ収束的な、根本的に非結合なQ-ラーニングダイナミクスを初めて開発する。
この分散環境における鍵となる課題は、エージェントの観点から学習環境の非定常性である。
論文 参考訳(メタデータ) (2021-06-04T22:42:56Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。