論文の概要: Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability
- arxiv url: http://arxiv.org/abs/2209.10003v1
- Date: Tue, 20 Sep 2022 21:13:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 17:10:37.117263
- Title: Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability
- Title(参考訳): 部分可観測性下におけるマクロアクションベースマルチエージェント/ロボット深層強化学習
- Authors: Yuchen Xiao
- Abstract要約: 最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
- 参考スコア(独自算出の注目度): 4.111899441919164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The state-of-the-art multi-agent reinforcement learning (MARL) methods have
provided promising solutions to a variety of complex problems. Yet, these
methods all assume that agents perform synchronized primitive-action executions
so that they are not genuinely scalable to long-horizon real-world
multi-agent/robot tasks that inherently require agents/robots to asynchronously
reason about high-level action selection at varying time durations. The
Macro-Action Decentralized Partially Observable Markov Decision Process
(MacDec-POMDP) is a general formalization for asynchronous decision-making
under uncertainty in fully cooperative multi-agent tasks. In this thesis, we
first propose a group of value-based RL approaches for MacDec-POMDPs, where
agents are allowed to perform asynchronous learning and decision-making with
macro-action-value functions in three paradigms: decentralized learning and
control, centralized learning and control, and centralized training for
decentralized execution (CTDE). Building on the above work, we formulate a set
of macro-action-based policy gradient algorithms under the three training
paradigms, where agents are allowed to directly optimize their parameterized
policies in an asynchronous manner. We evaluate our methods both in simulation
and on real robots over a variety of realistic domains. Empirical results
demonstrate the superiority of our approaches in large multi-agent problems and
validate the effectiveness of our algorithms for learning high-quality and
asynchronous solutions with macro-actions.
- Abstract(参考訳): 最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供している。
しかし、これらの手法はすべてエージェントが同期したプリミティブアクションの実行を実行すると仮定しており、エージェント/ロボットが非同期にハイレベルなアクションの選択を時間毎に判断する必要があるような、真のスケーラブルな実世界のマルチエージェント/ロボットタスクではない。
MacDec-POMDP (Macro-Action Decentralized partially Observable Markov Decision Process) は、完全協調型マルチエージェントタスクにおける不確実性の下での非同期決定の一般的な形式化である。
本稿では,まず,分散学習と制御,集中学習と制御,分散実行のための集中トレーニング(CTDE)という3つのパラダイムにおいて,エージェントがマクロアクション値関数を用いて非同期学習と意思決定を行うことができる,MacDec-POMDPに対する価値ベースRLアプローチのグループを提案する。
上記の研究に基づいて、3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化し、エージェントはパラメータ化されたポリシーを直接非同期に最適化することができる。
本手法は,様々な現実的な領域において,シミュレーションと実ロボットの両方で評価する。
実験結果は,大規模マルチエージェント問題に対する我々のアプローチの優位性を示し,マクロアクションを用いた高品質・非同期ソリューション学習におけるアルゴリズムの有効性を検証する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - ROMA-iQSS: An Objective Alignment Approach via State-Based Value Learning and ROund-Robin Multi-Agent Scheduling [44.276285521929424]
本稿では,エージェントが独立して最適な状態を発見できる分散状態ベース価値学習アルゴリズムを提案する。
我々の理論分析は、我々のアプローチが分散化されたエージェントを最適な集団政策へと導くことを示している。
さらに実験により,本手法が既存の分散状態ベースおよび行動ベース価値学習戦略より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-05T09:39:47Z) - Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z) - Asynchronous Actor-Critic for Multi-Agent Reinforcement Learning [19.540926205375857]
現実的な設定で複数のエージェント間で決定を同期することは、エージェントが他のエージェントが終了し、終了について確実に通信するのを待つ必要があるため、問題となる。
エージェントが3つの標準トレーニングパラダイムで非同期ポリシーを直接最適化できる非同期マルチエージェントアクター批判手法のセットを定式化する。
論文 参考訳(メタデータ) (2022-09-20T16:36:23Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Macro-Action-Based Deep Multi-Agent Reinforcement Learning [17.73081797556005]
本稿では,分散型および集中型マクロアクション値関数を学習するための2つのDeep Q-Network (DQN) に基づく手法を提案する。
ベンチマーク問題とより大きな領域の評価は、プリミティブアクションよりもマクロアクションによる学習の利点を示す。
論文 参考訳(メタデータ) (2020-04-18T15:46:38Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。