論文の概要: (A Partial Survey of) Decentralized, Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.06161v2
- Date: Tue, 21 May 2024 18:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:11:11.812133
- Title: (A Partial Survey of) Decentralized, Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): (一部調査)分散・協調多エージェント強化学習
- Authors: Christopher Amato,
- Abstract要約: マルチエージェント強化学習(MARL)は近年急速に普及している。
分散トレーニングと実行メソッドは最も小さな仮定であり、実装が簡単であることが多い。
- 参考スコア(独自算出の注目度): 14.873907857806358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) has exploded in popularity in recent years. Many approaches have been developed but they can be divided into three main types: centralized training and execution (CTE), centralized training for decentralized execution (CTDE), and Decentralized training and execution (DTE).Decentralized training and execution methods make the fewest assumptions and are often simple to implement. In fact, as I'll discuss, any single-agent RL method can be used for DTE by just letting each agent learn separately. Of course, there are pros and cons to such approaches as I discuss below. It is worth noting that DTE is required if no offline coordination is available. That is, if all agents must learn during online interactions without prior coordination, learning and execution must both be decentralized. DTE methods can be applied in cooperative, competitive, or mixed cases but this text will focus on the cooperative MARL case. In this text, I will first give a brief description of the cooperative MARL problem in the form of the Dec-POMDP. Then, I will discuss value-based DTE methods starting with independent Q-learning and its extensions and then discuss the extension to the deep case with DQN, the additional complications this causes, and methods that have been developed to (attempt to) address these issues. Next, I will discuss policy gradient DTE methods starting with independent REINFORCE (i.e., vanilla policy gradient), and then extending to the actor-critic case and deep variants (such as independent PPO). Finally, I will discuss some general topics related to DTE and future directions.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は近年急速に普及している。
多くのアプローチが開発されているが、これらは集中型トレーニングと実行(CTE)、分散型実行(CTDE)のための集中型トレーニング(CTDE)、分散型トレーニングと実行(DTE)の3つの主なタイプに分けられる。
分散トレーニングと実行メソッドは最も小さな仮定であり、実装が簡単であることが多い。
実際、私が議論するとおり、各エージェントが個別に学習させることで、DTEに任意の単エージェントRLメソッドを使うことができる。
もちろん、下記のようなアプローチには長所と短所があります。
オフラインの調整が不要な場合、DTEは必須である点に注意が必要だ。
つまり、すべてのエージェントが事前調整なしでオンラインインタラクション中に学習しなければならない場合、学習と実行はどちらも分散化されなければならない。
DTE法は協調的、競争的、あるいは混合的な場合に応用できるが、本文は協調的MARL事例に焦点をあてる。
本文では、まず、DEC-POMDPの形で協調的なMARL問題の簡単な説明を行う。
次に、独立したQ-ラーニングとその拡張から始まる価値に基づくDTE手法について論じ、さらに、DQNによる深層ケースの拡張について論じる。
次に、独立なREINFORCE(バニラ政策勾配)から始まるポリシー勾配DTE手法について論じ、アクター批判的なケースと深い変種(独立なPPOなど)にまで拡張する。
最後に、DTEと今後の方向性に関するいくつかの一般的な話題について論じる。
関連論文リスト
- Reducing Redundant Computation in Multi-Agent Coordination through Locally Centralized Execution [1.260132853894322]
本研究では,局所集中型チームトランス (LCTT) と呼ばれる新しい手法を提案する。
LCTTは、選択されたエージェントがリーダーとして機能し、指示を発行するローカル集中型の実行フレームワークを確立し、残りのエージェントは、労働者として指定され、ポリシーネットワークをアクティベートすることなく、これらの命令として振る舞う。
実験の結果,提案手法は効率よく冗長計算を削減し,報酬水準を低下させることなく,学習の収束を早めることを示した。
論文 参考訳(メタデータ) (2024-04-19T06:13:37Z) - Communication-Efficient Decentralized Federated Learning via One-Bit
Compressive Sensing [52.402550431781805]
分散連合学習(DFL)は、様々なアプリケーションにまたがる実用性によって人気を博している。
集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのはより難しい。
我々は,iADM (iexact alternating direction method) の枠組みに基づく新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-08-31T12:22:40Z) - Is Centralized Training with Decentralized Execution Framework
Centralized Enough for MARL? [27.037348104661497]
分散実行によるトレーニングは、協調的マルチエージェント強化学習のための一般的なフレームワークである。
マルチエージェント強化学習のためのCADP(Advising and Decentralized Pruning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T03:15:24Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Dealing With Non-stationarity in Decentralized Cooperative Multi-Agent
Deep Reinforcement Learning via Multi-Timescale Learning [15.935860288840466]
分散協調深層学習(MARL)は多目的学習フレームワークである。
分散化深層MARLにおける重要な課題の1つは、複数のエージェントが同時に学習している場合の学習環境の非定常性である。
マルチスケール学習に基づく分散協調型MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-06T14:10:53Z) - ACE: Cooperative Multi-agent Q-learning with Bidirectional
Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。
本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。
ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2022-11-29T10:22:55Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Mean-Field Multi-Agent Reinforcement Learning: A Decentralized Network
Approach [6.802025156985356]
本稿では,MARLを状態ネットワークで学習するために,局所学習と分散実行というフレームワークを提案する。
鍵となる考え方は、エージェントの均質性を利用し、それらの状態に応じてそれらを再分類することであり、それによってネットワーク化されたマルコフ決定過程が定式化される。
論文 参考訳(メタデータ) (2021-08-05T16:52:36Z) - Distributed Heuristic Multi-Agent Path Finding with Communication [7.854890646114447]
大規模ロボットシステムにはMAPF(Multi-Agent Path Finding)が不可欠である。
近年,部分観測可能な環境下での分散警察の学習に強化学習(RL)を適用している。
本稿では,深層学習とコミュニケーションを組み合わせることで,MAPFの新たな学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-21T18:50:58Z) - Periodic Stochastic Gradient Descent with Momentum for Decentralized
Training [114.36410688552579]
本稿では、モーメントスキーマと周期通信を併用した、分散学習のための新しい周期型モーメントSGD法を提案する。
提案した2つの手法の性能を検証するための広範囲な実験を行い、どちらも既存の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-08-24T13:38:22Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。