論文の概要: Provable Cooperative Multi-Agent Exploration for Reward-Free MDPs
- arxiv url: http://arxiv.org/abs/2602.01453v1
- Date: Sun, 01 Feb 2026 21:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.794135
- Title: Provable Cooperative Multi-Agent Exploration for Reward-Free MDPs
- Title(参考訳): Reward-free MDP のための多エージェント共同探索
- Authors: Idan Barnea, Orin Levy, Yishay Mansour,
- Abstract要約: 報酬のない探索における協調型マルチエージェント強化学習について検討した。
我々は,有限水平MDPに着目し,段階学習フレームワークを採用する。
- 参考スコア(独自算出の注目度): 40.06714252547274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study cooperative multi-agent reinforcement learning in the setting of reward-free exploration, where multiple agents jointly explore an unknown MDP in order to learn its dynamics (without observing rewards). We focus on a tabular finite-horizon MDP and adopt a phased learning framework. In each learning phase, multiple agents independently interact with the environment. More specifically, in each learning phase, each agent is assigned a policy, executes it, and observes the resulting trajectory. Our primary goal is to characterize the tradeoff between the number of learning phases and the number of agents, especially when the number of learning phases is small. Our results identify a sharp transition governed by the horizon $H$. When the number of learning phases equals $H$, we present a computationally efficient algorithm that uses only $\tilde{O}(S^6 H^6 A / ε^2)$ agents to obtain an $ε$ approximation of the dynamics (i.e., yields an $ε$-optimal policy for any reward function). We complement our algorithm with a lower bound showing that any algorithm restricted to $ρ< H$ phases requires at least $A^{H/ρ}$ agents to achieve constant accuracy. Thus, we show that it is essential to have an order of $H$ learning phases if we limit the number of agents to be polynomial.
- Abstract(参考訳): 本研究では,無報酬探索における協調型マルチエージェント強化学習について検討し,複数のエージェントが未知のMDPを共同で探索し,そのダイナミクスを学習する(報酬を観察せずに)。
表形式の有限水平MDPに焦点をあて、位相学習フレームワークを採用する。
各学習フェーズでは、複数のエージェントが独立して環境と相互作用する。
より具体的には、各学習段階において、各エージェントはポリシーを割り当て、それを実行し、その結果の軌跡を観察する。
我々の第一の目的は、学習フェーズの数とエージェントの数とのトレードオフを特徴付けることであり、特に学習フェーズの数が少ない場合である。
我々の結果は地平線が支配するシャープな遷移を$H$と同定する。
学習位相の数が$H$と等しいとき、計算効率のよいアルゴリズムを提示する:$\tilde{O}(S^6 H^6 A / ε^2)$エージェントだけで、力学の$ε$近似を得る(すなわち、任意の報酬関数に対して$ε$最適化ポリシーを得る)。
我々は,任意のアルゴリズムが一定精度を達成するためには,少なくとも$A^{H/ρ}$エージェントが必要であることを示す。
したがって、エージェントの数を多項式に制限すれば、$H$の学習フェーズを持つことが不可欠である。
関連論文リスト
- Mean-Field Sampling for Cooperative Multi-Agent Reinforcement Learning [8.400105595501158]
我々は、新しい$textttSUBPLE-MFQ$(textbfSubsample$-$textbfMean-$textbfF$ield-$textbfQ$-learning)と、$n$エージェントを持つシステムの分散ランダム化ポリシーを提案する。
我々は、この学習されたポリシーが$tilde$O (1/sqrtk)$の順序の最適ポリシーに収束することを証明する。
論文 参考訳(メタデータ) (2024-12-01T03:45:17Z) - Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning [15.46907000938726]
協調型マルチエージェント強化学習(MARL)における確率的ランダム化探索に関する最初の研究について述べる。
並列マルコフ決定過程(MDP)におけるランダム化探索のための統一されたアルゴリズムフレームワークと,2つのトンプソンサンプリング型アルゴリズムであるCoopTS-PHEとCoopTS-LMCを提案する。
提案手法は, 深層探査問題(例えば$N$-chain), ビデオゲーム, エネルギーシステムにおける実世界の問題など, 複数並列RL環境における提案手法の評価を行う。
論文 参考訳(メタデータ) (2024-04-16T17:01:38Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。