Fugu-MT 論文翻訳(概要): Stateful active facilitator: Coordination and Environmental Heterogeneity in Cooperative Multi-Agent Reinforcement Learning

論文の概要: Stateful active facilitator: Coordination and Environmental Heterogeneity in Cooperative Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2210.03022v1
Date: Tue, 4 Oct 2022 18:17:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 15:42:42.645180
Title: Stateful active facilitator: Coordination and Environmental Heterogeneity in Cooperative Multi-Agent Reinforcement Learning
Title（参考訳）: ステートフルアクティブファシリテータ:協調多エージェント強化学習におけるコーディネーションと環境不均一性
Authors: Dianbo Liu, Vedant Shah, Oussama Boussif, Cristian Meo, Anirudh Goyal, Tianmin Shu, Michael Mozer, Nicolas Heess, Yoshua Bengio
Abstract要約: 環境の調整レベルと不均一度の概念を定式化する。異なるMARLアプローチの実証評価を容易にするマルチエージェント環境のスイートであるHECOGridを提案する。本研究では,エージェントが高配向環境と高配向環境において効率的に作業することを可能にする訓練分散実行学習手法を提案する。
参考スコア（独自算出の注目度）: 81.39444892747512
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In cooperative multi-agent reinforcement learning, a team of agents works together to achieve a common goal. Different environments or tasks may require varying degrees of coordination among agents in order to achieve the goal in an optimal way. The nature of coordination will depend on properties of the environment -- its spatial layout, distribution of obstacles, dynamics, etc. We term this variation of properties within an environment as heterogeneity. Existing literature has not sufficiently addressed the fact that different environments may have different levels of heterogeneity. We formalize the notions of coordination level and heterogeneity level of an environment and present HECOGrid, a suite of multi-agent RL environments that facilitates empirical evaluation of different MARL approaches across different levels of coordination and environmental heterogeneity by providing a quantitative control over coordination and heterogeneity levels of the environment. Further, we propose a Centralized Training Decentralized Execution learning approach called Stateful Active Facilitator (SAF) that enables agents to work efficiently in high-coordination and high-heterogeneity environments through a differentiable and shared knowledge source used during training and dynamic selection from a shared pool of policies. We evaluate SAF and compare its performance against baselines IPPO and MAPPO on HECOGrid. Our results show that SAF consistently outperforms the baselines across different tasks and different heterogeneity and coordination levels.
Abstract（参考訳）: 協調型マルチエージェント強化学習では、エージェントのチームが協力して共通の目標を達成する。異なる環境やタスクは、最適な方法で目標を達成するために、エージェント間の調整の程度を変える必要がある。調整の性質は環境の特性(空間的レイアウト、障害物の分布、ダイナミクスなど)に依存します。この性質の変化を異質性(heregeneity)と呼ぶ。既存の文献は、異なる環境が異質性のレベルが異なるという事実に十分対応していない。環境の調整レベルと不均一性レベルの概念を定式化し、環境の調整レベルと不均一性レベルを定量的に制御することで、異なる調整レベルと環境不均一性の異なるMARLアプローチの実験的評価を容易にするマルチエージェントRL環境のスイートであるHECOGridを提示する。さらに, エージェントが高コーディネーション環境と高ヘテロジニティ環境において, 共有ポリシープールからの動的選択と学習に使用する知識ソースを識別し, 効率よく作業できる, ステートフルアクティブファシリテータ (SAF) と呼ばれる集中型訓練分散実行学習手法を提案する。我々はSAFを評価し,HECOGrid上のベースラインIPPOとMAPPOを比較した。以上の結果から,SAFは,タスクや不均一性,調整レベルの相違により,基準線を一貫して上回ることがわかった。

関連論文リスト

MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文参考訳（メタデータ） (2025-03-03T05:18:50Z)
Single-Loop Federated Actor-Critic across Heterogeneous Environments [9.276123988094698]
エージェントが2段階のフェデレート方式でアクター・クリティカル・ラーニングを行うためのテキストサイトSingle-loop Federated Actor Critic (SFAC) について検討する。 SFACの収束誤差は環境に比例してほぼ定常点に収束することを示す。
論文参考訳（メタデータ） (2024-12-19T06:13:59Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
CoMIX: A Multi-agent Reinforcement Learning Training Architecture for Efficient Decentralized Coordination and Independent Decision-Making [2.4555276449137042]
ロバストコーディネートスキルにより、エージェントは共有環境で、共通の目標に向けて、そして理想的には、お互いの進歩を妨げることなく、結合的に操作することができる。本稿では,分散エージェントのための新しいトレーニングフレームワークであるCoordinated QMIXについて述べる。
論文参考訳（メタデータ） (2023-08-21T13:45:44Z)
Adaptive Coordination in Social Embodied Rearrangement [49.35582108902819]
本研究では,エージェントが新しいパートナーと協力し,ロボットが新しいパートナーと協力するシナリオをエミュレートする作業において,ゼロショットコーディネート(ZSC)を研究する。本稿では,識別可能性の目的を通じて多様性を促進する新しいZSCアプローチである行動多様性プレイ(BDP)を提案する。以上の結果から,BDPは視覚的コーディネーションに対処可能な適応エージェントを学習し,ゼロショットは未確認環境において新たなパートナーに一般化し,ベースラインに比べて35%,効率が32%向上した。
論文参考訳（メタデータ） (2023-05-31T18:05:51Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
Diversity Induced Environment Design via Self-Play [9.172096093540357]
本研究では,与えられたレベルを表す観測・隠蔽状態を特定するタスク非依存の手法を提案する。この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。さらに, サンプリング効率を向上させるために, 環境生成装置がトレーニングエージェントに有利な環境を自動的に生成する自己再生技術を導入する。
論文参考訳（メタデータ） (2023-02-04T07:31:36Z)
Parallel Best Arm Identification in Heterogeneous Environments [8.915120653822433]
異種協調学習モデルにおける最適な腕識別問題の時間と通信ラウンド数のトレードオフについて検討する。ほぼ厳密な上界と下界を証明することにより、不均一な環境での協調学習が、同質な環境での学習よりも本質的に困難であることを示す。
論文参考訳（メタデータ） (2022-07-16T21:06:26Z)
Normative Disagreement as a Challenge for Cooperative AI [56.34005280792013]
典型的な協調誘導学習アルゴリズムは、問題の解決に協力することができないと論じる。我々は,ノルム適応政策のクラスを開発し,これらが協調性を著しく向上させることを示す実験を行った。
論文参考訳（メタデータ） (2021-11-27T11:37:42Z)
Non-local Policy Optimization via Diversity-regularized Collaborative Exploration [45.997521480637836]
多様性規則化協調探索(DiCE)と呼ばれる新しい非局所的政策最適化フレームワークを提案する。 DiCEは異種エージェントのグループを利用して環境を同時に探索し、収集した経験を共有する。このフレームワークをオン・ポリティクスとオフ・ポリティクスの両方で実装し、実験結果から、DCEがベースラインよりも大幅に改善できることが示されている。
論文参考訳（メタデータ） (2020-06-14T03:31:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。