論文の概要: Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.10728v1
- Date: Tue, 16 Apr 2024 17:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 15:55:23.561329
- Title: Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習におけるランダムな探索
- Authors: Hao-Lun Hsu, Weixin Wang, Miroslav Pajic, Pan Xu,
- Abstract要約: 協調型マルチエージェント強化学習(MARL)における確率的ランダム化探索に関する最初の研究について述べる。
提案手法は, 深層探査問題 (textiti.e.$N$-chain) , ビデオゲーム, エネルギーシステムにおける実世界の問題などを含む, 並列RL環境における提案手法の評価を行う。
- 参考スコア(独自算出の注目度): 15.46907000938726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the first study on provably efficient randomized exploration in cooperative multi-agent reinforcement learning (MARL). We propose a unified algorithm framework for randomized exploration in parallel Markov Decision Processes (MDPs), and two Thompson Sampling (TS)-type algorithms, CoopTS-PHE and CoopTS-LMC, incorporating the perturbed-history exploration (PHE) strategy and the Langevin Monte Carlo exploration (LMC) strategy respectively, which are flexible in design and easy to implement in practice. For a special class of parallel MDPs where the transition is (approximately) linear, we theoretically prove that both CoopTS-PHE and CoopTS-LMC achieve a $\widetilde{\mathcal{O}}(d^{3/2}H^2\sqrt{MK})$ regret bound with communication complexity $\widetilde{\mathcal{O}}(dHM^2)$, where $d$ is the feature dimension, $H$ is the horizon length, $M$ is the number of agents, and $K$ is the number of episodes. This is the first theoretical result for randomized exploration in cooperative MARL. We evaluate our proposed method on multiple parallel RL environments, including a deep exploration problem (\textit{i.e.,} $N$-chain), a video game, and a real-world problem in energy systems. Our experimental results support that our framework can achieve better performance, even under conditions of misspecified transition models. Additionally, we establish a connection between our unified framework and the practical application of federated learning.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)における確率的ランダム化探索の最初の研究について述べる。
CoopTS-PHE と CoopTS-LMC がともに(ほぼ)線形である特別な並列 MDP に対して、$\widetilde{\mathcal{O}}(d^{3/2}H^2\sqrt{MK})$ regret bound with communication complexity $\widetilde{\mathcal{O}}(dHM^2)$, $d$ is the feature dimension, $H$ is the horizon length, $M$ is the number of agent, $K$ is the number of episodes。
提案手法は, 深層探査問題 (\textit{i.e.} $N$-chain) , ビデオゲーム, エネルギーシステムにおける実世界の問題など, 複数並列RL環境における提案手法の評価を行う。
- Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Settling the Horizon-Dependence of Sample Complexity in Reinforcement
Learning [82.31436758872715]
論文 参考訳(メタデータ) (2021-11-01T00:21:24Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z)