論文の概要: Structured Diversification Emergence via Reinforced Organization Control
and Hierarchical Consensus Learning
- arxiv url: http://arxiv.org/abs/2102.04775v1
- Date: Tue, 9 Feb 2021 11:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:12:41.436281
- Title: Structured Diversification Emergence via Reinforced Organization Control
and Hierarchical Consensus Learning
- Title(参考訳): 強化組織制御と階層的コンセンサス学習による構造的多様性の出現
- Authors: Wenhao Li, Xiangfeng Wang, Bo Jin, Junjie Sheng, Yun Hua and Hongyuan
Zha
- Abstract要約: 組織制御の強化と階層的コンセンサス学習に基づく構造的多様化型MARLフレームワーク scRochico を提案する。
scRochicoは、探索効率と協力強度の観点から、現在のSOTAアルゴリズムよりもはるかに優れている。
- 参考スコア(独自算出の注目度): 48.525944995851965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When solving a complex task, humans will spontaneously form teams and to
complete different parts of the whole task, respectively. Meanwhile, the
cooperation between teammates will improve efficiency. However, for current
cooperative MARL methods, the cooperation team is constructed through either
heuristics or end-to-end blackbox optimization. In order to improve the
efficiency of cooperation and exploration, we propose a structured
diversification emergence MARL framework named {\sc{Rochico}} based on
reinforced organization control and hierarchical consensus learning.
{\sc{Rochico}} first learns an adaptive grouping policy through the
organization control module, which is established by independent multi-agent
reinforcement learning. Further, the hierarchical consensus module based on the
hierarchical intentions with consensus constraint is introduced after team
formation. Simultaneously, utilizing the hierarchical consensus module and a
self-supervised intrinsic reward enhanced decision module, the proposed
cooperative MARL algorithm {\sc{Rochico}} can output the final diversified
multi-agent cooperative policy. All three modules are organically combined to
promote the structured diversification emergence. Comparative experiments on
four large-scale cooperation tasks show that {\sc{Rochico}} is significantly
better than the current SOTA algorithms in terms of exploration efficiency and
cooperation strength.
- Abstract(参考訳): 複雑なタスクを解決するとき、人間は自発的にチームを形成し、タスク全体のさまざまな部分を完了します。
一方、チームメイト間の協力によって効率が向上する。
しかしながら、現在の協調的marl手法では、協調チームはヒューリスティックスまたはエンドツーエンドブラックボックス最適化によって構築される。
協力と探索の効率を改善するために、強化された組織制御と階層的コンセンサス学習に基づいて、構造化された多様化出現MARLフレームワーク {\sc{Rochico}} を提案する。
{\sc{Rochico}} はまず、独立したマルチエージェント強化学習によって確立された組織制御モジュールを通じて適応的グループ化政策を学習する。
さらに、コンセンサス制約を伴う階層的意図に基づく階層的コンセンサスモジュールをチーム形成後に導入する。
同時に、階層型コンセンサスモジュールと自己教師型固有報酬強化決定モジュールを利用して、提案した協調MARLアルゴリズムは、最終多様化されたマルチエージェント協調政策を出力することができる。
これら3つのモジュールは、構造的な多様化を促進するために有機的に結合される。
4つの大規模協調タスクにおける比較実験は、探索効率と協力力の観点から、現在のsomaアルゴリズムよりも有意に優れていることを示している。
関連論文リスト
- CaPo: Cooperative Plan Optimization for Efficient Embodied Multi-Agent Cooperation [98.11670473661587]
CaPoは,1)メタプラン生成,2)プログレッシブなメタプランと実行の2つのフェーズで協調効率を向上する。
3Dworld Multi-Agent TransportとCommunicative Watch-And-Helpタスクの実験結果は、CaPoが最先端技術と比較してタスク完了率と効率をはるかに高めることを示した。
論文 参考訳(メタデータ) (2024-11-07T13:08:04Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Reaching Consensus in Cooperative Multi-Agent Reinforcement Learning
with Goal Imagination [16.74629849552254]
本稿では,複数のエージェントを協調するモデルに基づくコンセンサス機構を提案する。
提案したMulti-Adnt Goal Imagination (MAGI) フレームワークは、エージェントがImagined Common goalとコンセンサスに達するためのガイドである。
このような効率的なコンセンサス機構は、すべてのエージェントを協調して有用な将来状態に導くことができることを示す。
論文 参考訳(メタデータ) (2024-03-05T18:07:34Z) - CoMIX: A Multi-agent Reinforcement Learning Training Architecture for Efficient Decentralized Coordination and Independent Decision-Making [2.4555276449137042]
ロバストコーディネートスキルにより、エージェントは共有環境で、共通の目標に向けて、そして理想的には、お互いの進歩を妨げることなく、結合的に操作することができる。
本稿では,分散エージェントのための新しいトレーニングフレームワークであるCoordinated QMIXについて述べる。
論文 参考訳(メタデータ) (2023-08-21T13:45:44Z) - Learning to Learn Group Alignment: A Self-Tuning Credo Framework with
Multiagent Teams [1.370633147306388]
マルチエージェントチームを持つ人口の混合インセンティブは、完全に協調したシステムよりも有利であることが示されている。
個人学習エージェントが報酬関数の様々な部分を通してインセンティブの構成を自己制御する枠組みを提案する。
論文 参考訳(メタデータ) (2023-04-14T18:16:19Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with
Dual Coordination Mechanism [17.993973801986677]
多エージェント強化学習はしばしば、多数のエージェントによって引き起こされる指数関数的に大きな作用空間に悩まされる。
完全協調型マルチエージェント問題に対する階層的強化学習に基づく新しい値分解フレームワークHAVENを提案する。
論文 参考訳(メタデータ) (2021-10-14T10:43:47Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。