論文の概要: A First Introduction to Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.06161v4
- Date: Thu, 19 Dec 2024 19:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:20:00.101619
- Title: A First Introduction to Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習入門
- Authors: Christopher Amato,
- Abstract要約: マルチエージェント強化学習(MARL)は近年急速に普及している。
MARLアプローチは、集中型トレーニングと実行(CTE)、分散型実行(CTDE)のための集中型トレーニング(CTDE)、分散型トレーニングと実行(DTE)の3つの主なタイプに分類される。
このテキストはMARLの紹介であり、すべてのエージェントが単一の共同報酬を共有するMARLである。
- 参考スコア(独自算出の注目度): 14.873907857806358
- License:
- Abstract: Multi-agent reinforcement learning (MARL) has exploded in popularity in recent years. While numerous approaches have been developed, they can be broadly categorized into three main types: centralized training and execution (CTE), centralized training for decentralized execution (CTDE), and decentralized training and execution (DTE). CTE methods assume centralization during training and execution (e.g., with fast, free, and perfect communication) and have the most information during execution. CTDE methods are the most common, as they leverage centralized information during training while enabling decentralized execution -- using only information available to that agent during execution. Decentralized training and execution methods make the fewest assumptions and are often simple to implement. This text is an introduction to cooperative MARL -- MARL in which all agents share a single, joint reward. It is meant to explain the setting, basic concepts, and common methods for the CTE, CTDE, and DTE settings. It does not cover all work in cooperative MARL as the area is quite extensive. I have included work that I believe is important for understanding the main concepts in the area and apologize to those that I have omitted. Topics include simple applications of single-agent methods to CTE as well as some more scalable methods that exploit the multi-agent structure, independent Q-learning and policy gradient methods and their extensions, as well as value function factorization methods including the well-known VDN, QMIX, and QPLEX approaches, abd centralized critic methods including MADDPG, COMA, and MAPPO. I also discuss common misconceptions, the relationship between different approaches, and some open questions.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は近年急速に普及している。
多くのアプローチが開発されているが、これらは、集中型トレーニングと実行(CTE)、分散型実行(CTDE)のための集中型トレーニング(CTDE)、分散型トレーニングと実行(DTE)の3つの主要なタイプに分類される。
CTEメソッドは、トレーニングと実行中の集中化(例えば、高速、自由、完全通信)を前提としており、実行時に最も多くの情報を持っている。
CTDEメソッドは、訓練中に集中的な情報を活用すると同時に、実行中にそのエージェントに利用可能な情報のみを使用することによって、最も一般的である。分散トレーニングと実行メソッドは、最も小さな仮定であり、実装が簡単であることが多い。このテキストは、協調的なMARL - MARLの導入である。すべてのエージェントが単一の共同報酬を共有する。
これは、CTE、CTDE、DTEの設定、基本的な概念、一般的な方法を説明することを目的としている。
地域が広いため、MARLのすべての作業をカバーするわけではない。
私は、この分野の主要な概念を理解し、省略した人たちに謝罪するために重要だと信じている仕事を含めてきました。
トピックとしては、CTEへの単一エージェントメソッドのシンプルな応用、マルチエージェント構造を利用するよりスケーラブルな方法、独立したQ-ラーニングとポリシー勾配メソッドとその拡張、よく知られたVDN、QMIX、QPLEXアプローチを含む値関数の分解方法、MADDPG、COMA、MAPPOなどの集約的な批判手法などがある。
また、一般的な誤解、異なるアプローチ間の関係、いくつかのオープンな質問についても論じます。
関連論文リスト
- An Introduction to Centralized Training for Decentralized Execution in Cooperative Multi-Agent Reinforcement Learning [14.873907857806358]
このテキストは協調的なMARLにおけるCTDEの導入である。
これは、設定、基本的な概念、一般的な方法を説明することを目的としている。
論文 参考訳(メタデータ) (2024-09-04T19:54:40Z) - Communication-Efficient Decentralized Federated Learning via One-Bit
Compressive Sensing [52.402550431781805]
分散連合学習(DFL)は、様々なアプリケーションにまたがる実用性によって人気を博している。
集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのはより難しい。
我々は,iADM (iexact alternating direction method) の枠組みに基づく新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-08-31T12:22:40Z) - Is Centralized Training with Decentralized Execution Framework
Centralized Enough for MARL? [27.037348104661497]
分散実行によるトレーニングは、協調的マルチエージェント強化学習のための一般的なフレームワークである。
マルチエージェント強化学習のためのCADP(Advising and Decentralized Pruning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T03:15:24Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Dealing With Non-stationarity in Decentralized Cooperative Multi-Agent
Deep Reinforcement Learning via Multi-Timescale Learning [15.935860288840466]
分散協調深層学習(MARL)は多目的学習フレームワークである。
分散化深層MARLにおける重要な課題の1つは、複数のエージェントが同時に学習している場合の学習環境の非定常性である。
マルチスケール学習に基づく分散協調型MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-06T14:10:53Z) - ACE: Cooperative Multi-agent Q-learning with Bidirectional
Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。
本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。
ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2022-11-29T10:22:55Z) - CTDS: Centralized Teacher with Decentralized Student for Multi-Agent
Reinforcement Learning [114.69155066932046]
この作品は小説を提案している。
教師モデルと学生モデルからなる分散学生(C TDS)フレームワーク。
具体的には、教師モデルは、グローバルな観察で条件付けられた個別のQ値を学ぶことで、チームの報酬を割り当てる。
学生モデルは、部分的な観察を利用して、教師モデルによって推定されるQ値を近似する。
論文 参考訳(メタデータ) (2022-03-16T06:03:14Z) - Mean-Field Multi-Agent Reinforcement Learning: A Decentralized Network
Approach [6.802025156985356]
本稿では,MARLを状態ネットワークで学習するために,局所学習と分散実行というフレームワークを提案する。
鍵となる考え方は、エージェントの均質性を利用し、それらの状態に応じてそれらを再分類することであり、それによってネットワーク化されたマルコフ決定過程が定式化される。
論文 参考訳(メタデータ) (2021-08-05T16:52:36Z) - Distributed Heuristic Multi-Agent Path Finding with Communication [7.854890646114447]
大規模ロボットシステムにはMAPF(Multi-Agent Path Finding)が不可欠である。
近年,部分観測可能な環境下での分散警察の学習に強化学習(RL)を適用している。
本稿では,深層学習とコミュニケーションを組み合わせることで,MAPFの新たな学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-21T18:50:58Z) - Periodic Stochastic Gradient Descent with Momentum for Decentralized
Training [114.36410688552579]
本稿では、モーメントスキーマと周期通信を併用した、分散学習のための新しい周期型モーメントSGD法を提案する。
提案した2つの手法の性能を検証するための広範囲な実験を行い、どちらも既存の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-08-24T13:38:22Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。