Fugu-MT 論文翻訳(概要): Prioritized League Reinforcement Learning for Large-Scale Heterogeneous Multiagent Systems

論文の概要: Prioritized League Reinforcement Learning for Large-Scale Heterogeneous Multiagent Systems

arxiv url: http://arxiv.org/abs/2403.18057v1
Date: Tue, 26 Mar 2024 19:21:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 21:14:58.235130
Title: Prioritized League Reinforcement Learning for Large-Scale Heterogeneous Multiagent Systems
Title（参考訳）: 大規模不均一マルチエージェントシステムのための優先順位付きリーグ強化学習
Authors: Qingxu Fu, Zhiqiang Pu, Min Chen, Tenghai Qiu, Jianqiang Yi,
Abstract要約: 本稿では,大規模な異種協調問題に対処する優先的不均一リーグ強化学習(PHLRL)手法を提案する。 We use Unreal Engine to design a Large-scale Multiagent Operation (LSMO)。
参考スコア（独自算出の注目度）: 11.017749510087059
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale heterogeneous multiagent systems feature various realistic factors in the real world, such as agents with diverse abilities and overall system cost. In comparison to homogeneous systems, heterogeneous systems offer significant practical advantages. Nonetheless, they also present challenges for multiagent reinforcement learning, including addressing the non-stationary problem and managing an imbalanced number of agents with different types. We propose a Prioritized Heterogeneous League Reinforcement Learning (PHLRL) method to address large-scale heterogeneous cooperation problems. PHLRL maintains a record of various policies that agents have explored during their training and establishes a heterogeneous league consisting of diverse policies to aid in future policy optimization. Furthermore, we design a prioritized policy gradient approach to compensate for the gap caused by differences in the number of different types of agents. Next, we use Unreal Engine to design a large-scale heterogeneous cooperation benchmark named Large-Scale Multiagent Operation (LSMO), which is a complex two-team competition scenario that requires collaboration from both ground and airborne agents. We use experiments to show that PHLRL outperforms state-of-the-art methods, including QTRAN and QPLEX in LSMO.
Abstract（参考訳）: 大規模な異種マルチエージェントシステムは、多様な能力を持つエージェントやシステム全体のコストなど、現実世界の様々な現実的な要因を特徴としている。均質系と比較して、異質系は重要な実用上の利点をもたらす。それにもかかわらず、彼らはまた、非定常問題に対処し、異なるタイプのエージェントの不均衡数を管理することを含む、マルチエージェント強化学習の課題も提示している。大規模不均一協調問題に対処する優先的不均一リーグ強化学習(PHLRL)法を提案する。 PHLRLは、エージェントが訓練中に調査した様々なポリシーの記録を維持し、将来の政策最適化を支援する様々なポリシーからなる異種リーグを確立する。さらに,異なる種類のエージェントの数の違いによって生じるギャップを補うために,優先順位付けされたポリシー勾配アプローチを設計する。次に,Unreal Engineを用いて,大規模マルチエージェント操作 (LSMO) と呼ばれる大規模な異種協調ベンチマークを設計する。実験により、PHLRLはLSMOのQTRANやQPLEXなど最先端の手法より優れていることを示す。

関連論文リスト

Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文参考訳（メタデータ） (2024-10-03T14:25:02Z)
Improving Global Parameter-sharing in Physically Heterogeneous Multi-agent Reinforcement Learning with Unified Action Space [22.535906675532196]
マルチエージェントシステムでは、アクションセマンティクスはエージェントのアクションが他のエンティティに対して異なる影響を示す。従来のマルチエージェント強化学習(MARL)アルゴリズムは、多種多様な異種エージェントにまたがる大域的パラメータ共有を適用する。要件を満たすために統一行動空間(UAS)を導入する。
論文参考訳（メタデータ） (2024-08-14T09:15:11Z)
Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-12T21:38:40Z)
QTypeMix: Enhancing Multi-Agent Cooperative Strategies through Heterogeneous and Homogeneous Value Decomposition [11.170571181947274]
そこで我々はQTypeMixを提案する。これは値分解過程を均質および不均一な段階に分割する。提案手法をSMACとSMACv2の14の地図上で検証した結果,QTypeMixは様々な課題において,最先端の性能を達成できることがわかった。
論文参考訳（メタデータ） (2024-08-12T12:27:58Z)
EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは、特殊エージェントをマルチエージェントシステムに自動的に拡張するジェネリックメソッドである。 EvoAgent は LLM エージェントのタスク解決能力を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-06-20T11:49:23Z)
An Extensible Framework for Open Heterogeneous Collaborative Perception [58.70875361688463]
協調的な知覚は、単一エージェントの知覚の限界を緩和することを目的としている。本稿では,新しい異種エージェントを協調認識に適応させる方法を提案する。本稿では,新しい協調認識フレームワークであるHeterogeneous ALliance(HEAL)を提案する。
論文参考訳（メタデータ） (2024-01-25T05:55:03Z)
Learning Heterogeneous Agent Cooperation via Multiagent League Training [6.801749815385998]
本研究ではヘテロジニアス・リーグ・トレーニング(HLT)と呼ばれる汎用強化学習アルゴリズムを提案する。 HLTは、エージェントがトレーニング中に調査したポリシーのプールを追跡し、将来のポリシー最適化を促進するために異質なポリシーの集合を集めている。協力スキルのレベルが異なるチームメイトとのコラボレーションにおいて、エージェントの振る舞いの多様性を高めるために、ハイパーネットワークが導入される。
論文参考訳（メタデータ） (2022-11-13T13:57:15Z)
Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2022-06-01T04:58:52Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)
FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文参考訳（メタデータ） (2020-03-14T21:29:09Z)
Scalable Multi-Agent Inverse Reinforcement Learning via Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-24T20:30:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。