論文の概要: Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration
- arxiv url: http://arxiv.org/abs/2110.05707v1
- Date: Tue, 12 Oct 2021 02:45:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 13:04:39.827702
- Title: Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration
- Title(参考訳): 探索型分散協調型マルチエージェント強化学習
- Authors: Weichao Mao, Tamer Ba\c{s}ar, Lin F. Yang, Kaiqing Zhang
- Abstract要約: マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
- 参考スコア(独自算出の注目度): 35.75029940279768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world applications of multi-agent reinforcement learning (RL), such
as multi-robot navigation and decentralized control of cyber-physical systems,
involve the cooperation of agents as a team with aligned objectives. We study
multi-agent RL in the most basic cooperative setting -- Markov teams -- a class
of Markov games where the cooperating agents share a common reward. We propose
an algorithm in which each agent independently runs stage-based V-learning (a
Q-learning style algorithm) to efficiently explore the unknown environment,
while using a stochastic gradient descent (SGD) subroutine for policy updates.
We show that the agents can learn an $\epsilon$-approximate Nash equilibrium
policy in at most $\propto\widetilde{O}(1/\epsilon^4)$ episodes. Our results
advocate the use of a novel \emph{stage-based} V-learning approach to create a
stage-wise stationary environment. We also show that under certain smoothness
assumptions of the team, our algorithm can achieve a nearly \emph{team-optimal}
Nash equilibrium. Simulation results corroborate our theoretical findings. One
key feature of our algorithm is being \emph{decentralized}, in the sense that
each agent has access to only the state and its local actions, and is even
\emph{oblivious} to the presence of the other agents. Neither communication
among teammates nor coordination by a central controller is required during
learning. Hence, our algorithm can readily generalize to an arbitrary number of
agents, without suffering from the exponential dependence on the number of
agents.
- Abstract(参考訳): マルチエージェント強化学習(RL)の現実的な応用は、マルチロボットナビゲーションやサイバー物理システムの分散制御などであり、エージェントが連携する目的を持ったチームとして協力することを含んでいる。
協力エージェントが共通の報酬を共有するマルコフゲームのクラスであるマルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェントRLを研究する。
本稿では,各エージェントが段階ベースのv-learning(q-learningスタイルアルゴリズム)を独立に実行して未知環境を効率的に探索し,確率勾配降下(sgd)サブルーチンを用いてポリシー更新を行うアルゴリズムを提案する。
エージェントは最大$\propto\widetilde{o}(1/\epsilon^4)$のエピソードで$\epsilon$-approximate nash平衡ポリシーを学ぶことができる。
本研究は,ステージワイドな静止環境を構築するための新しいV-ラーニング手法を提案する。
また、ある平滑性仮定の下では、我々のアルゴリズムがほぼ \emph{team-optimal} nash平衡を達成できることを示した。
シミュレーション結果は理論的な結果と相関する。
アルゴリズムの重要な特徴の1つは、各エージェントが状態とそのローカルアクションのみにアクセスでき、他のエージェントの存在に対しても \emph{oblivious} であるという意味での \emph{decentralized} である。
学習中、チームメイト間のコミュニケーションや中央コントローラによるコーディネーションは必要とされない。
したがって,本アルゴリズムはエージェント数に指数関数的依存を伴わずに,任意のエージェント数に容易に一般化することができる。
関連論文リスト
- N-Agent Ad Hoc Teamwork [36.10108537776956]
協調的マルチエージェント行動の学習への現在のアプローチは、比較的限定的な設定を前提としている。
本稿では,この問題を定式化し,エージェントモデリングを用いたポリシー最適化(POAM)アルゴリズムを提案する。
POAMは、NAHT問題に対するポリシーグラデーションであり、マルチエージェント強化学習アプローチであり、多様なチームメイト行動への適応を可能にする。
論文 参考訳(メタデータ) (2024-04-16T17:13:08Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward [29.737986509769808]
本稿では,自己監督型固有報酬ELIGN-期待アライメントを提案する。
動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。
エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。
論文 参考訳(メタデータ) (2022-10-09T22:24:44Z) - Provably Efficient Reinforcement Learning in Decentralized General-Sum
Markov Games [5.205867750232226]
本稿では,一般のマルコフゲームにおいて平衡を効率的に学習する問題に対処する。
本稿では,各エージェントが独立して楽観的なV-ラーニングを実行し,未知の環境を効率的に探索するアルゴリズムを提案する。
エージェントは少なくとも$widetildeO(H6S A /epsilon2)$ episodesで$epsilon$-approximate CCEを見つけることができる。
論文 参考訳(メタデータ) (2021-10-12T02:01:22Z) - Learning to Coordinate in Multi-Agent Systems: A Coordinated
Actor-Critic Algorithm and Finite-Time Guarantees [43.10380224532313]
本研究ではアクター・クリティカル(AC)アルゴリズムを用いて,自律エージェントによる協調行動の出現について検討する。
本稿では、個別にパラメータ化されたポリシーが共有された部分とパーソナライズされた部分を持つコーディネートされたアクタ・クリティカル・アルゴリズム(CAC)のクラスを提案し、分析する。
この研究は、部分的にパーソナライズされたポリシーを持つ分散ACアルゴリズムに対する最初の有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2021-10-11T20:26:16Z) - Distributed Heuristic Multi-Agent Path Finding with Communication [7.854890646114447]
大規模ロボットシステムにはMAPF(Multi-Agent Path Finding)が不可欠である。
近年,部分観測可能な環境下での分散警察の学習に強化学習(RL)を適用している。
本稿では,深層学習とコミュニケーションを組み合わせることで,MAPFの新たな学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-21T18:50:58Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。