Fugu-MT 論文翻訳(概要): (A Partial Survey of) Decentralized, Cooperative Multi-Agent Reinforcement Learning

論文の概要: (A Partial Survey of) Decentralized, Cooperative Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2405.06161v2
Date: Tue, 21 May 2024 18:12:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 05:11:11.812133
Title: (A Partial Survey of) Decentralized, Cooperative Multi-Agent Reinforcement Learning
Title（参考訳）: (一部調査)分散・協調多エージェント強化学習
Authors: Christopher Amato,
Abstract要約: マルチエージェント強化学習(MARL)は近年急速に普及している。分散トレーニングと実行メソッドは最も小さな仮定であり、実装が簡単であることが多い。
参考スコア（独自算出の注目度）: 14.873907857806358
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-agent reinforcement learning (MARL) has exploded in popularity in recent years. Many approaches have been developed but they can be divided into three main types: centralized training and execution (CTE), centralized training for decentralized execution (CTDE), and Decentralized training and execution (DTE).Decentralized training and execution methods make the fewest assumptions and are often simple to implement. In fact, as I'll discuss, any single-agent RL method can be used for DTE by just letting each agent learn separately. Of course, there are pros and cons to such approaches as I discuss below. It is worth noting that DTE is required if no offline coordination is available. That is, if all agents must learn during online interactions without prior coordination, learning and execution must both be decentralized. DTE methods can be applied in cooperative, competitive, or mixed cases but this text will focus on the cooperative MARL case. In this text, I will first give a brief description of the cooperative MARL problem in the form of the Dec-POMDP. Then, I will discuss value-based DTE methods starting with independent Q-learning and its extensions and then discuss the extension to the deep case with DQN, the additional complications this causes, and methods that have been developed to (attempt to) address these issues. Next, I will discuss policy gradient DTE methods starting with independent REINFORCE (i.e., vanilla policy gradient), and then extending to the actor-critic case and deep variants (such as independent PPO). Finally, I will discuss some general topics related to DTE and future directions.
Abstract（参考訳）: マルチエージェント強化学習(MARL)は近年急速に普及している。多くのアプローチが開発されているが、これらは集中型トレーニングと実行(CTE)、分散型実行(CTDE)のための集中型トレーニング(CTDE)、分散型トレーニングと実行(DTE)の3つの主なタイプに分けられる。分散トレーニングと実行メソッドは最も小さな仮定であり、実装が簡単であることが多い。実際、私が議論するとおり、各エージェントが個別に学習させることで、DTEに任意の単エージェントRLメソッドを使うことができる。もちろん、下記のようなアプローチには長所と短所があります。オフラインの調整が不要な場合、DTEは必須である点に注意が必要だ。つまり、すべてのエージェントが事前調整なしでオンラインインタラクション中に学習しなければならない場合、学習と実行はどちらも分散化されなければならない。 DTE法は協調的、競争的、あるいは混合的な場合に応用できるが、本文は協調的MARL事例に焦点をあてる。本文では、まず、DEC-POMDPの形で協調的なMARL問題の簡単な説明を行う。次に、独立したQ-ラーニングとその拡張から始まる価値に基づくDTE手法について論じ、さらに、DQNによる深層ケースの拡張について論じる。次に、独立なREINFORCE(バニラ政策勾配)から始まるポリシー勾配DTE手法について論じ、アクター批判的なケースと深い変種(独立なPPOなど)にまで拡張する。最後に、DTEと今後の方向性に関するいくつかの一般的な話題について論じる。

関連論文リスト

Multi-Agent Guided Policy Optimization [36.853129816484845]
分散実行訓練(CTDE)は,協調型マルチエージェント強化学習(MARL)において支配的なパラダイムとなっている。我々は,集中型指導と集中型実行を統合することで,集中型訓練をよりよく活用する新しいフレームワークであるMulti-Agent Guided Policy Optimization (MAGPO)を提案する。
論文参考訳（メタデータ） (2025-07-24T03:22:21Z)
An Introduction to Centralized Training for Decentralized Execution in Cooperative Multi-Agent Reinforcement Learning [14.873907857806358]
このテキストは協調的なMARLにおけるCTDEの導入である。これは、設定、基本的な概念、一般的な方法を説明することを目的としている。
論文参考訳（メタデータ） (2024-09-04T19:54:40Z)
Communication-Efficient Decentralized Federated Learning via One-Bit Compressive Sensing [52.402550431781805]
分散連合学習(DFL)は、様々なアプリケーションにまたがる実用性によって人気を博している。集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのはより難しい。我々は,iADM (iexact alternating direction method) の枠組みに基づく新しいアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-08-31T12:22:40Z)
Is Centralized Training with Decentralized Execution Framework Centralized Enough for MARL? [27.037348104661497]
分散実行によるトレーニングは、協調的マルチエージェント強化学習のための一般的なフレームワークである。マルチエージェント強化学習のためのCADP(Advising and Decentralized Pruning)フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-27T03:15:24Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
Dealing With Non-stationarity in Decentralized Cooperative Multi-Agent Deep Reinforcement Learning via Multi-Timescale Learning [15.935860288840466]
分散協調深層学習(MARL)は多目的学習フレームワークである。分散化深層MARLにおける重要な課題の1つは、複数のエージェントが同時に学習している場合の学習環境の非定常性である。マルチスケール学習に基づく分散協調型MARLアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-06T14:10:53Z)
ACE: Cooperative Multi-agent Q-learning with Bidirectional Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。 ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文参考訳（メタデータ） (2022-11-29T10:22:55Z)
RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。 RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文参考訳（メタデータ） (2022-06-02T03:39:27Z)
CTDS: Centralized Teacher with Decentralized Student for Multi-Agent Reinforcement Learning [114.69155066932046]
この作品は小説を提案している。教師モデルと学生モデルからなる分散学生(C TDS)フレームワーク。具体的には、教師モデルは、グローバルな観察で条件付けられた個別のQ値を学ぶことで、チームの報酬を割り当てる。学生モデルは、部分的な観察を利用して、教師モデルによって推定されるQ値を近似する。
論文参考訳（メタデータ） (2022-03-16T06:03:14Z)
Mean-Field Multi-Agent Reinforcement Learning: A Decentralized Network Approach [6.802025156985356]
本稿では,MARLを状態ネットワークで学習するために,局所学習と分散実行というフレームワークを提案する。鍵となる考え方は、エージェントの均質性を利用し、それらの状態に応じてそれらを再分類することであり、それによってネットワーク化されたマルコフ決定過程が定式化される。
論文参考訳（メタデータ） (2021-08-05T16:52:36Z)
Distributed Heuristic Multi-Agent Path Finding with Communication [7.854890646114447]
大規模ロボットシステムにはMAPF(Multi-Agent Path Finding)が不可欠である。近年,部分観測可能な環境下での分散警察の学習に強化学習(RL)を適用している。本稿では,深層学習とコミュニケーションを組み合わせることで,MAPFの新たな学習手法を提案する。
論文参考訳（メタデータ） (2021-06-21T18:50:58Z)
Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文参考訳（メタデータ） (2020-10-06T16:51:09Z)
Periodic Stochastic Gradient Descent with Momentum for Decentralized Training [114.36410688552579]
本稿では、モーメントスキーマと周期通信を併用した、分散学習のための新しい周期型モーメントSGD法を提案する。提案した2つの手法の性能を検証するための広範囲な実験を行い、どちらも既存の手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2020-08-24T13:38:22Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)
Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文参考訳（メタデータ） (2020-03-19T16:51:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。