論文の概要: Stateful active facilitator: Coordination and Environmental
Heterogeneity in Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.03022v1
- Date: Tue, 4 Oct 2022 18:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:42:42.645180
- Title: Stateful active facilitator: Coordination and Environmental
Heterogeneity in Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): ステートフルアクティブファシリテータ:協調多エージェント強化学習におけるコーディネーションと環境不均一性
- Authors: Dianbo Liu, Vedant Shah, Oussama Boussif, Cristian Meo, Anirudh Goyal,
Tianmin Shu, Michael Mozer, Nicolas Heess, Yoshua Bengio
- Abstract要約: 環境の調整レベルと不均一度の概念を定式化する。
異なるMARLアプローチの実証評価を容易にするマルチエージェント環境のスイートであるHECOGridを提案する。
本研究では,エージェントが高配向環境と高配向環境において効率的に作業することを可能にする訓練分散実行学習手法を提案する。
- 参考スコア(独自算出の注目度): 81.39444892747512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In cooperative multi-agent reinforcement learning, a team of agents works
together to achieve a common goal. Different environments or tasks may require
varying degrees of coordination among agents in order to achieve the goal in an
optimal way. The nature of coordination will depend on properties of the
environment -- its spatial layout, distribution of obstacles, dynamics, etc. We
term this variation of properties within an environment as heterogeneity.
Existing literature has not sufficiently addressed the fact that different
environments may have different levels of heterogeneity. We formalize the
notions of coordination level and heterogeneity level of an environment and
present HECOGrid, a suite of multi-agent RL environments that facilitates
empirical evaluation of different MARL approaches across different levels of
coordination and environmental heterogeneity by providing a quantitative
control over coordination and heterogeneity levels of the environment. Further,
we propose a Centralized Training Decentralized Execution learning approach
called Stateful Active Facilitator (SAF) that enables agents to work
efficiently in high-coordination and high-heterogeneity environments through a
differentiable and shared knowledge source used during training and dynamic
selection from a shared pool of policies. We evaluate SAF and compare its
performance against baselines IPPO and MAPPO on HECOGrid. Our results show that
SAF consistently outperforms the baselines across different tasks and different
heterogeneity and coordination levels.
- Abstract(参考訳): 協調型マルチエージェント強化学習では、エージェントのチームが協力して共通の目標を達成する。
異なる環境やタスクは、最適な方法で目標を達成するために、エージェント間の調整の程度を変える必要がある。
調整の性質は環境の特性(空間的レイアウト、障害物の分布、ダイナミクスなど)に依存します。
この性質の変化を異質性(heregeneity)と呼ぶ。
既存の文献は、異なる環境が異質性のレベルが異なるという事実に十分対応していない。
環境の調整レベルと不均一性レベルの概念を定式化し、環境の調整レベルと不均一性レベルを定量的に制御することで、異なる調整レベルと環境不均一性の異なるMARLアプローチの実験的評価を容易にするマルチエージェントRL環境のスイートであるHECOGridを提示する。
さらに, エージェントが高コーディネーション環境と高ヘテロジニティ環境において, 共有ポリシープールからの動的選択と学習に使用する知識ソースを識別し, 効率よく作業できる, ステートフルアクティブファシリテータ (SAF) と呼ばれる集中型訓練分散実行学習手法を提案する。
我々はSAFを評価し,HECOGrid上のベースラインIPPOとMAPPOを比較した。
以上の結果から,SAFは,タスクや不均一性,調整レベルの相違により,基準線を一貫して上回ることがわかった。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - CoMIX: A Multi-agent Reinforcement Learning Training Architecture for Efficient Decentralized Coordination and Independent Decision-Making [2.4555276449137042]
ロバストコーディネートスキルにより、エージェントは共有環境で、共通の目標に向けて、そして理想的には、お互いの進歩を妨げることなく、結合的に操作することができる。
本稿では,分散エージェントのための新しいトレーニングフレームワークであるCoordinated QMIXについて述べる。
論文 参考訳(メタデータ) (2023-08-21T13:45:44Z) - Adaptive Coordination in Social Embodied Rearrangement [49.35582108902819]
本研究では,エージェントが新しいパートナーと協力し,ロボットが新しいパートナーと協力するシナリオをエミュレートする作業において,ゼロショットコーディネート(ZSC)を研究する。
本稿では,識別可能性の目的を通じて多様性を促進する新しいZSCアプローチである行動多様性プレイ(BDP)を提案する。
以上の結果から,BDPは視覚的コーディネーションに対処可能な適応エージェントを学習し,ゼロショットは未確認環境において新たなパートナーに一般化し,ベースラインに比べて35%,効率が32%向上した。
論文 参考訳(メタデータ) (2023-05-31T18:05:51Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Diversity Induced Environment Design via Self-Play [9.172096093540357]
本研究では,与えられたレベルを表す観測・隠蔽状態を特定するタスク非依存の手法を提案する。
この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。
さらに, サンプリング効率を向上させるために, 環境生成装置がトレーニングエージェントに有利な環境を自動的に生成する自己再生技術を導入する。
論文 参考訳(メタデータ) (2023-02-04T07:31:36Z) - Parallel Best Arm Identification in Heterogeneous Environments [8.915120653822433]
異種協調学習モデルにおける最適な腕識別問題の時間と通信ラウンド数のトレードオフについて検討する。
ほぼ厳密な上界と下界を証明することにより、不均一な環境での協調学習が、同質な環境での学習よりも本質的に困難であることを示す。
論文 参考訳(メタデータ) (2022-07-16T21:06:26Z) - Normative Disagreement as a Challenge for Cooperative AI [56.34005280792013]
典型的な協調誘導学習アルゴリズムは、問題の解決に協力することができないと論じる。
我々は,ノルム適応政策のクラスを開発し,これらが協調性を著しく向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2021-11-27T11:37:42Z) - Non-local Policy Optimization via Diversity-regularized Collaborative
Exploration [45.997521480637836]
多様性規則化協調探索(DiCE)と呼ばれる新しい非局所的政策最適化フレームワークを提案する。
DiCEは異種エージェントのグループを利用して環境を同時に探索し、収集した経験を共有する。
このフレームワークをオン・ポリティクスとオフ・ポリティクスの両方で実装し、実験結果から、DCEがベースラインよりも大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2020-06-14T03:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。