論文の概要: A First Introduction to Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.06161v4
- Date: Thu, 19 Dec 2024 19:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:20:00.101619
- Title: A First Introduction to Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習入門
- Authors: Christopher Amato,
- Abstract要約: マルチエージェント強化学習(MARL)は近年急速に普及している。
MARLアプローチは、集中型トレーニングと実行(CTE)、分散型実行(CTDE)のための集中型トレーニング(CTDE)、分散型トレーニングと実行(DTE)の3つの主なタイプに分類される。
このテキストはMARLの紹介であり、すべてのエージェントが単一の共同報酬を共有するMARLである。
- 参考スコア(独自算出の注目度): 14.873907857806358
- License:
- Abstract: Multi-agent reinforcement learning (MARL) has exploded in popularity in recent years. While numerous approaches have been developed, they can be broadly categorized into three main types: centralized training and execution (CTE), centralized training for decentralized execution (CTDE), and decentralized training and execution (DTE). CTE methods assume centralization during training and execution (e.g., with fast, free, and perfect communication) and have the most information during execution. CTDE methods are the most common, as they leverage centralized information during training while enabling decentralized execution -- using only information available to that agent during execution. Decentralized training and execution methods make the fewest assumptions and are often simple to implement. This text is an introduction to cooperative MARL -- MARL in which all agents share a single, joint reward. It is meant to explain the setting, basic concepts, and common methods for the CTE, CTDE, and DTE settings. It does not cover all work in cooperative MARL as the area is quite extensive. I have included work that I believe is important for understanding the main concepts in the area and apologize to those that I have omitted. Topics include simple applications of single-agent methods to CTE as well as some more scalable methods that exploit the multi-agent structure, independent Q-learning and policy gradient methods and their extensions, as well as value function factorization methods including the well-known VDN, QMIX, and QPLEX approaches, abd centralized critic methods including MADDPG, COMA, and MAPPO. I also discuss common misconceptions, the relationship between different approaches, and some open questions.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は近年急速に普及している。
多くのアプローチが開発されているが、これらは、集中型トレーニングと実行(CTE)、分散型実行(CTDE)のための集中型トレーニング(CTDE)、分散型トレーニングと実行(DTE)の3つの主要なタイプに分類される。
CTEメソッドは、トレーニングと実行中の集中化(例えば、高速、自由、完全通信)を前提としており、実行時に最も多くの情報を持っている。
CTDEメソッドは、訓練中に集中的な情報を活用すると同時に、実行中にそのエージェントに利用可能な情報のみを使用することによって、最も一般的である。分散トレーニングと実行メソッドは、最も小さな仮定であり、実装が簡単であることが多い。このテキストは、協調的なMARL - MARLの導入である。すべてのエージェントが単一の共同報酬を共有する。
これは、CTE、CTDE、DTEの設定、基本的な概念、一般的な方法を説明することを目的としている。
地域が広いため、MARLのすべての作業をカバーするわけではない。
私は、この分野の主要な概念を理解し、省略した人たちに謝罪するために重要だと信じている仕事を含めてきました。
トピックとしては、CTEへの単一エージェントメソッドのシンプルな応用、マルチエージェント構造を利用するよりスケーラブルな方法、独立したQ-ラーニングとポリシー勾配メソッドとその拡張、よく知られたVDN、QMIX、QPLEXアプローチを含む値関数の分解方法、MADDPG、COMA、MAPPOなどの集約的な批判手法などがある。
また、一般的な誤解、異なるアプローチ間の関係、いくつかのオープンな質問についても論じます。
関連論文リスト
- An Introduction to Centralized Training for Decentralized Execution in Cooperative Multi-Agent Reinforcement Learning [14.873907857806358]
このテキストは協調的なMARLにおけるCTDEの導入である。
これは、設定、基本的な概念、一般的な方法を説明することを目的としている。
論文 参考訳(メタデータ) (2024-09-04T19:54:40Z) - Is Centralized Training with Decentralized Execution Framework
Centralized Enough for MARL? [27.037348104661497]
分散実行によるトレーニングは、協調的マルチエージェント強化学習のための一般的なフレームワークである。
マルチエージェント強化学習のためのCADP(Advising and Decentralized Pruning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T03:15:24Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - CTDS: Centralized Teacher with Decentralized Student for Multi-Agent
Reinforcement Learning [114.69155066932046]
この作品は小説を提案している。
教師モデルと学生モデルからなる分散学生(C TDS)フレームワーク。
具体的には、教師モデルは、グローバルな観察で条件付けられた個別のQ値を学ぶことで、チームの報酬を割り当てる。
学生モデルは、部分的な観察を利用して、教師モデルによって推定されるQ値を近似する。
論文 参考訳(メタデータ) (2022-03-16T06:03:14Z) - Mean-Field Multi-Agent Reinforcement Learning: A Decentralized Network
Approach [6.802025156985356]
本稿では,MARLを状態ネットワークで学習するために,局所学習と分散実行というフレームワークを提案する。
鍵となる考え方は、エージェントの均質性を利用し、それらの状態に応じてそれらを再分類することであり、それによってネットワーク化されたマルコフ決定過程が定式化される。
論文 参考訳(メタデータ) (2021-08-05T16:52:36Z) - Distributed Heuristic Multi-Agent Path Finding with Communication [7.854890646114447]
大規模ロボットシステムにはMAPF(Multi-Agent Path Finding)が不可欠である。
近年,部分観測可能な環境下での分散警察の学習に強化学習(RL)を適用している。
本稿では,深層学習とコミュニケーションを組み合わせることで,MAPFの新たな学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-21T18:50:58Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。