論文の概要: Stateful active facilitator: Coordination and Environmental
Heterogeneity in Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.03022v1
- Date: Tue, 4 Oct 2022 18:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:42:42.645180
- Title: Stateful active facilitator: Coordination and Environmental
Heterogeneity in Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): ステートフルアクティブファシリテータ:協調多エージェント強化学習におけるコーディネーションと環境不均一性
- Authors: Dianbo Liu, Vedant Shah, Oussama Boussif, Cristian Meo, Anirudh Goyal,
Tianmin Shu, Michael Mozer, Nicolas Heess, Yoshua Bengio
- Abstract要約: 環境の調整レベルと不均一度の概念を定式化する。
異なるMARLアプローチの実証評価を容易にするマルチエージェント環境のスイートであるHECOGridを提案する。
本研究では,エージェントが高配向環境と高配向環境において効率的に作業することを可能にする訓練分散実行学習手法を提案する。
- 参考スコア(独自算出の注目度): 81.39444892747512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In cooperative multi-agent reinforcement learning, a team of agents works
together to achieve a common goal. Different environments or tasks may require
varying degrees of coordination among agents in order to achieve the goal in an
optimal way. The nature of coordination will depend on properties of the
environment -- its spatial layout, distribution of obstacles, dynamics, etc. We
term this variation of properties within an environment as heterogeneity.
Existing literature has not sufficiently addressed the fact that different
environments may have different levels of heterogeneity. We formalize the
notions of coordination level and heterogeneity level of an environment and
present HECOGrid, a suite of multi-agent RL environments that facilitates
empirical evaluation of different MARL approaches across different levels of
coordination and environmental heterogeneity by providing a quantitative
control over coordination and heterogeneity levels of the environment. Further,
we propose a Centralized Training Decentralized Execution learning approach
called Stateful Active Facilitator (SAF) that enables agents to work
efficiently in high-coordination and high-heterogeneity environments through a
differentiable and shared knowledge source used during training and dynamic
selection from a shared pool of policies. We evaluate SAF and compare its
performance against baselines IPPO and MAPPO on HECOGrid. Our results show that
SAF consistently outperforms the baselines across different tasks and different
heterogeneity and coordination levels.
- Abstract(参考訳): 協調型マルチエージェント強化学習では、エージェントのチームが協力して共通の目標を達成する。
異なる環境やタスクは、最適な方法で目標を達成するために、エージェント間の調整の程度を変える必要がある。
調整の性質は環境の特性(空間的レイアウト、障害物の分布、ダイナミクスなど)に依存します。
この性質の変化を異質性(heregeneity)と呼ぶ。
既存の文献は、異なる環境が異質性のレベルが異なるという事実に十分対応していない。
環境の調整レベルと不均一性レベルの概念を定式化し、環境の調整レベルと不均一性レベルを定量的に制御することで、異なる調整レベルと環境不均一性の異なるMARLアプローチの実験的評価を容易にするマルチエージェントRL環境のスイートであるHECOGridを提示する。
さらに, エージェントが高コーディネーション環境と高ヘテロジニティ環境において, 共有ポリシープールからの動的選択と学習に使用する知識ソースを識別し, 効率よく作業できる, ステートフルアクティブファシリテータ (SAF) と呼ばれる集中型訓練分散実行学習手法を提案する。
我々はSAFを評価し,HECOGrid上のベースラインIPPOとMAPPOを比較した。
以上の結果から,SAFは,タスクや不均一性,調整レベルの相違により,基準線を一貫して上回ることがわかった。
関連論文リスト
- CoMIX: A Multi-agent Reinforcement Learning Training Architecture for
Efficient Decentralized Coordination and Independent Decision Making [2.9008806248012333]
ロバストな調整スキルにより、エージェントは共有環境で凝集的に操作できる。
本稿では、フレキシブルポリシーによる創発的協調を可能にする分散型エージェントのための新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-21T13:45:44Z) - Adaptive Coordination in Social Embodied Rearrangement [49.35582108902819]
本研究では,エージェントが新しいパートナーと協力し,ロボットが新しいパートナーと協力するシナリオをエミュレートする作業において,ゼロショットコーディネート(ZSC)を研究する。
本稿では,識別可能性の目的を通じて多様性を促進する新しいZSCアプローチである行動多様性プレイ(BDP)を提案する。
以上の結果から,BDPは視覚的コーディネーションに対処可能な適応エージェントを学習し,ゼロショットは未確認環境において新たなパートナーに一般化し,ベースラインに比べて35%,効率が32%向上した。
論文 参考訳(メタデータ) (2023-05-31T18:05:51Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Diversity Induced Environment Design via Self-Play [9.172096093540357]
本研究では,与えられたレベルを表す観測・隠蔽状態を特定するタスク非依存の手法を提案する。
この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。
さらに, サンプリング効率を向上させるために, 環境生成装置がトレーニングエージェントに有利な環境を自動的に生成する自己再生技術を導入する。
論文 参考訳(メタデータ) (2023-02-04T07:31:36Z) - Cooperative guidance of multiple missiles: a hybrid co-evolutionary
approach [0.9176056742068814]
複数のミサイルの協調誘導は、厳密な時間と宇宙の合意の制約を伴う課題である。
本稿では,非定常性と協調指導が直面する継続的制御の問題に対処する,新たな自然共進化戦略(NCES)を開発する。
高度にスケーラブルな共進化的メカニズムと従来の指導戦略を統合することで,ハイブリッド共同進化的協調指導法(HCCGL)を提案する。
論文 参考訳(メタデータ) (2022-08-15T12:59:38Z) - Normative Disagreement as a Challenge for Cooperative AI [56.34005280792013]
典型的な協調誘導学習アルゴリズムは、問題の解決に協力することができないと論じる。
我々は,ノルム適応政策のクラスを開発し,これらが協調性を著しく向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2021-11-27T11:37:42Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Non-local Policy Optimization via Diversity-regularized Collaborative
Exploration [45.997521480637836]
多様性規則化協調探索(DiCE)と呼ばれる新しい非局所的政策最適化フレームワークを提案する。
DiCEは異種エージェントのグループを利用して環境を同時に探索し、収集した経験を共有する。
このフレームワークをオン・ポリティクスとオフ・ポリティクスの両方で実装し、実験結果から、DCEがベースラインよりも大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2020-06-14T03:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。