論文の概要: Learning Heterogeneous Agent Cooperation via Multiagent League Training
- arxiv url: http://arxiv.org/abs/2211.11616v1
- Date: Sun, 13 Nov 2022 13:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 13:27:42.814245
- Title: Learning Heterogeneous Agent Cooperation via Multiagent League Training
- Title(参考訳): マルチエージェントリーグトレーニングによる異種エージェント協調学習
- Authors: Qingxu Fu, Xiaolin Ai, Jianqiang Yi, Tenghai Qiu, Wanmai Yuan,
Zhiqiang Pu
- Abstract要約: 本研究ではヘテロジニアス・リーグ・トレーニング(HLT)と呼ばれる汎用強化学習アルゴリズムを提案する。
HLTは、エージェントがトレーニング中に調査したポリシーのプールを追跡し、将来のポリシー最適化を促進するために異質なポリシーの集合を集めている。
協力スキルのレベルが異なるチームメイトとのコラボレーションにおいて、エージェントの振る舞いの多様性を高めるために、ハイパーネットワークが導入される。
- 参考スコア(独自算出の注目度): 6.801749815385998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many multiagent systems in the real world include multiple types of agents
with different abilities and functionality. Such heterogeneous multiagent
systems have significant practical advantages. However, they also come with
challenges compared with homogeneous systems for multiagent reinforcement
learning, such as the non-stationary problem and the policy version iteration
issue. This work proposes a general-purpose reinforcement learning algorithm
named as Heterogeneous League Training (HLT) to address heterogeneous
multiagent problems. HLT keeps track of a pool of policies that agents have
explored during training, gathering a league of heterogeneous policies to
facilitate future policy optimization. Moreover, a hyper-network is introduced
to increase the diversity of agent behaviors when collaborating with teammates
having different levels of cooperation skills. We use heterogeneous benchmark
tasks to demonstrate that (1) HLT promotes the success rate in cooperative
heterogeneous tasks; (2) HLT is an effective approach to solving the policy
version iteration problem; (3) HLT provides a practical way to assess the
difficulty of learning each role in a heterogeneous team.
- Abstract(参考訳): 現実世界の多くのマルチエージェントシステムは、異なる能力と機能を持つ複数のタイプのエージェントを含んでいる。
このような異質なマルチエージェントシステムには、大きな実用的利点がある。
しかし、それらはまた、非定常問題やポリシーバージョン反復問題のようなマルチエージェント強化学習のための均質なシステムと比較される。
本研究ではヘテロジニアス・リーグ・トレーニング(HLT)と呼ばれる汎用強化学習アルゴリズムを提案する。
hltは、エージェントがトレーニング中に検討したポリシーのプールを追跡し、将来のポリシー最適化を促進するために異種ポリシーのリーグを収集する。
さらに、異なるレベルの協力スキルを持つチームメイトとコラボレーションする際のエージェント行動の多様性を高めるためにハイパーネットワークが導入された。
我々は,(1)HLTが協調的不均一なタスクの成功率を促進すること,(2)HLTは政策バージョン反復問題の解決に有効なアプローチであること,(3)HLTは異種チームにおける各役割の学習の困難さを評価するための実践的な方法を提供する。
関連論文リスト
- QTypeMix: Enhancing Multi-Agent Cooperative Strategies through Heterogeneous and Homogeneous Value Decomposition [11.170571181947274]
そこで我々はQTypeMixを提案する。これは値分解過程を均質および不均一な段階に分割する。
提案手法をSMACとSMACv2の14の地図上で検証した結果,QTypeMixは様々な課題において,最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-08-12T12:27:58Z) - Prioritized League Reinforcement Learning for Large-Scale Heterogeneous Multiagent Systems [11.017749510087059]
本稿では,大規模な異種協調問題に対処する優先的不均一リーグ強化学習(PHLRL)手法を提案する。
We use Unreal Engine to design a Large-scale Multiagent Operation (LSMO)。
論文 参考訳(メタデータ) (2024-03-26T19:21:50Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Heterogeneous Embodied Multi-Agent Collaboration [21.364827833498254]
不均一なマルチエージェントタスクは現実世界のシナリオでは一般的である。
本稿では,複数の異種エージェントが協調して異種物体を検出し,適切な位置に配置する異種マルチエージェント・タイピング・アップタスクを提案する。
本稿では, 乱れ検出に基づく階層的決定モデル, 合理的な受容器予測, およびハンドシェイクに基づくグループ通信機構を提案する。
論文 参考訳(メタデータ) (2023-07-26T04:33:05Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Heterogeneous Multi-agent Zero-Shot Coordination by Coevolution [41.23036865145942]
異種ゼロショットコーディネート(ZSC)問題を初めて検討した。
本稿では,3つのサブプロセス(ペアリング,更新,選択)を通じてエージェントとパートナーの2つの集団を共進化させる,共進化に基づく一般的な手法を提案する。
論文 参考訳(メタデータ) (2022-08-09T16:16:28Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。