論文の概要: Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks
- arxiv url: http://arxiv.org/abs/2407.08164v2
- Date: Fri, 23 Aug 2024 13:07:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 19:17:18.822237
- Title: Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks
- Title(参考訳): 階層型合意に基づくマルチロボット協調作業のためのマルチエージェント強化学習
- Authors: Pu Feng, Junkang Liang, Size Wang, Xin Yu, Xin Ji, Yiting Chen, Kui Zhang, Rongye Shi, Wenjun Wu,
- Abstract要約: 階層型合意に基づくマルチエージェント強化学習(HC-MARL)フレームワークを導入し,その限界に対処する。
HC-MARLは、エージェント間のグローバルコンセンサスを促進するために対照的な学習を採用し、直接のコミュニケーションなしに協調行動を可能にする。
様々なタスクの動的な要求を満たすために、コンセンサスを複数の層に分割し、短期的および長期的考慮を包含する。
- 参考スコア(独自算出の注目度): 17.914928652949314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-agent reinforcement learning (MARL), the Centralized Training with Decentralized Execution (CTDE) framework is pivotal but struggles due to a gap: global state guidance in training versus reliance on local observations in execution, lacking global signals. Inspired by human societal consensus mechanisms, we introduce the Hierarchical Consensus-based Multi-Agent Reinforcement Learning (HC-MARL) framework to address this limitation. HC-MARL employs contrastive learning to foster a global consensus among agents, enabling cooperative behavior without direct communication. This approach enables agents to form a global consensus from local observations, using it as an additional piece of information to guide collaborative actions during execution. To cater to the dynamic requirements of various tasks, consensus is divided into multiple layers, encompassing both short-term and long-term considerations. Short-term observations prompt the creation of an immediate, low-layer consensus, while long-term observations contribute to the formation of a strategic, high-layer consensus. This process is further refined through an adaptive attention mechanism that dynamically adjusts the influence of each consensus layer. This mechanism optimizes the balance between immediate reactions and strategic planning, tailoring it to the specific demands of the task at hand. Extensive experiments and real-world applications in multi-robot systems showcase our framework's superior performance, marking significant advancements over baselines.
- Abstract(参考訳): マルチエージェント強化学習(MARL)では、中央集中型訓練と分散実行(CTDE)フレームワークが重要であるが、ギャップのために苦労している。
人間の社会的コンセンサス機構にインスパイアされた階層型マルチエージェント強化学習(HC-MARL)フレームワークを導入し,その限界に対処する。
HC-MARLは、エージェント間のグローバルコンセンサスを促進するために対照的な学習を採用し、直接のコミュニケーションなしに協調行動を可能にする。
このアプローチにより、エージェントはローカルな観測からグローバルなコンセンサスを形成することができ、それを追加の情報として使用することで、実行中の協調行動のガイドが可能になる。
様々なタスクの動的な要求を満たすために、コンセンサスを複数の層に分割し、短期的および長期的考慮を包含する。
短期的な観測は即時、低層的なコンセンサスの形成を促す一方で、長期的な観測は戦略的、高層的なコンセンサスの形成に寄与する。
このプロセスは、各コンセンサス層の影響を動的に調整するアダプティブアテンション機構によってさらに洗練される。
このメカニズムは即時反応と戦略的計画のバランスを最適化し、手前のタスクの特定の要求に合わせて調整する。
マルチロボットシステムにおける大規模な実験と実世界の応用は、我々のフレームワークの優れた性能を示し、ベースラインよりも大幅に進歩したことを示している。
関連論文リスト
- CaPo: Cooperative Plan Optimization for Efficient Embodied Multi-Agent Cooperation [98.11670473661587]
CaPoは,1)メタプラン生成,2)プログレッシブなメタプランと実行の2つのフェーズで協調効率を向上する。
3Dworld Multi-Agent TransportとCommunicative Watch-And-Helpタスクの実験結果は、CaPoが最先端技術と比較してタスク完了率と効率をはるかに高めることを示した。
論文 参考訳(メタデータ) (2024-11-07T13:08:04Z) - Reaching Consensus in Cooperative Multi-Agent Reinforcement Learning
with Goal Imagination [16.74629849552254]
本稿では,複数のエージェントを協調するモデルに基づくコンセンサス機構を提案する。
提案したMulti-Adnt Goal Imagination (MAGI) フレームワークは、エージェントがImagined Common goalとコンセンサスに達するためのガイドである。
このような効率的なコンセンサス機構は、すべてのエージェントを協調して有用な将来状態に導くことができることを示す。
論文 参考訳(メタデータ) (2024-03-05T18:07:34Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with
Dual Coordination Mechanism [17.993973801986677]
多エージェント強化学習はしばしば、多数のエージェントによって引き起こされる指数関数的に大きな作用空間に悩まされる。
完全協調型マルチエージェント問題に対する階層的強化学習に基づく新しい値分解フレームワークHAVENを提案する。
論文 参考訳(メタデータ) (2021-10-14T10:43:47Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Cooperative Policy Learning with Pre-trained Heterogeneous Observation
Representations [51.8796674904734]
事前訓練された異種観察表現を用いた新たな協調学習フレームワークを提案する。
エンコーダ-デコーダに基づくグラフアテンションを用いて、複雑な相互作用と異種表現を学習する。
論文 参考訳(メタデータ) (2020-12-24T04:52:29Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。