論文の概要: QTypeMix: Enhancing Multi-Agent Cooperative Strategies through Heterogeneous and Homogeneous Value Decomposition
- arxiv url: http://arxiv.org/abs/2408.07098v1
- Date: Mon, 12 Aug 2024 12:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 15:07:25.893898
- Title: QTypeMix: Enhancing Multi-Agent Cooperative Strategies through Heterogeneous and Homogeneous Value Decomposition
- Title(参考訳): QTypeMix:不均一および均一な値分解による多エージェント協調戦略の強化
- Authors: Songchen Fu, Shaojing Zhao, Ta Li, YongHong Yan,
- Abstract要約: そこで我々はQTypeMixを提案する。これは値分解過程を均質および不均一な段階に分割する。
提案手法をSMACとSMACv2の14の地図上で検証した結果,QTypeMixは様々な課題において,最先端の性能を達成できることがわかった。
- 参考スコア(独自算出の注目度): 11.170571181947274
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In multi-agent cooperative tasks, the presence of heterogeneous agents is familiar. Compared to cooperation among homogeneous agents, collaboration requires considering the best-suited sub-tasks for each agent. However, the operation of multi-agent systems often involves a large amount of complex interaction information, making it more challenging to learn heterogeneous strategies. Related multi-agent reinforcement learning methods sometimes use grouping mechanisms to form smaller cooperative groups or leverage prior domain knowledge to learn strategies for different roles. In contrast, agents should learn deeper role features without relying on additional information. Therefore, we propose QTypeMix, which divides the value decomposition process into homogeneous and heterogeneous stages. QTypeMix learns to extract type features from local historical observations through the TE loss. In addition, we introduce advanced network structures containing attention mechanisms and hypernets to enhance the representation capability and achieve the value decomposition process. The results of testing the proposed method on 14 maps from SMAC and SMACv2 show that QTypeMix achieves state-of-the-art performance in tasks of varying difficulty.
- Abstract(参考訳): 多エージェント協調作業においては、異種エージェントの存在がよく知られている。
同質なエージェント間の協調に比べて、各エージェントに最適なサブタスクを検討する必要がある。
しかし、マルチエージェントシステムの動作は、しばしば大量の複雑な相互作用情報を必要とするため、異種戦略の学習がより困難になる。
関連したマルチエージェント強化学習手法では、グループ化機構を用いてより小さな協調グループを形成したり、ドメイン知識の事前活用によって異なる役割の戦略を学ぶことがある。
対照的に、エージェントは追加情報に頼ることなく、より深い役割機能を学ぶべきです。
そこで我々はQTypeMixを提案する。これは値分解過程を均質および不均一な段階に分割する。
QTypeMixは、TE損失を通じて、地元の歴史的観測からタイプの特徴を抽出することを学ぶ。
さらに、注意機構とハイパーネットを含む高度なネットワーク構造を導入し、表現能力を高め、値分解プロセスを実現する。
提案手法をSMACとSMACv2の14の地図上で検証した結果,QTypeMixは様々な課題において,最先端の性能を達成できることがわかった。
関連論文リスト
- Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z) - Prioritized League Reinforcement Learning for Large-Scale Heterogeneous Multiagent Systems [11.017749510087059]
本稿では,大規模な異種協調問題に対処する優先的不均一リーグ強化学習(PHLRL)手法を提案する。
We use Unreal Engine to design a Large-scale Multiagent Operation (LSMO)。
論文 参考訳(メタデータ) (2024-03-26T19:21:50Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - Heterogeneous Embodied Multi-Agent Collaboration [21.364827833498254]
不均一なマルチエージェントタスクは現実世界のシナリオでは一般的である。
本稿では,複数の異種エージェントが協調して異種物体を検出し,適切な位置に配置する異種マルチエージェント・タイピング・アップタスクを提案する。
本稿では, 乱れ検出に基づく階層的決定モデル, 合理的な受容器予測, およびハンドシェイクに基づくグループ通信機構を提案する。
論文 参考訳(メタデータ) (2023-07-26T04:33:05Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Learning Heterogeneous Agent Cooperation via Multiagent League Training [6.801749815385998]
本研究ではヘテロジニアス・リーグ・トレーニング(HLT)と呼ばれる汎用強化学習アルゴリズムを提案する。
HLTは、エージェントがトレーニング中に調査したポリシーのプールを追跡し、将来のポリシー最適化を促進するために異質なポリシーの集合を集めている。
協力スキルのレベルが異なるチームメイトとのコラボレーションにおいて、エージェントの振る舞いの多様性を高めるために、ハイパーネットワークが導入される。
論文 参考訳(メタデータ) (2022-11-13T13:57:15Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。