論文の概要: CORD: Generalizable Cooperation via Role Diversity
- arxiv url: http://arxiv.org/abs/2501.02221v1
- Date: Sat, 04 Jan 2025 07:53:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:02.536081
- Title: CORD: Generalizable Cooperation via Role Diversity
- Title(参考訳): CORD: 役割多様性による汎用的な協力
- Authors: Kanefumi Matsuyama, Kefan Su, Jiangxing Wang, Deheng Ye, Zongqing Lu,
- Abstract要約: 我々は,役割多様性,すなわち CORD を通じて一般化可能な協調を可能にする階層的MARL手法を提案する。
CORDのハイレベルコントローラは、制約付きロールエントロピーを最大化することで、ローレベルエージェントにロールを割り当てる。
この制約された目的は、合理的な役割割り当てを可能にする役割の因果的影響と、一貫性のない非冗長な役割クラスタを生み出す役割の不均一性に分解できることを示す。
- 参考スコア(独自算出の注目度): 37.82009228311012
- License:
- Abstract: Cooperative multi-agent reinforcement learning (MARL) aims to develop agents that can collaborate effectively. However, most cooperative MARL methods overfit training agents, making learned policies not generalize well to unseen collaborators, which is a critical issue for real-world deployment. Some methods attempt to address the generalization problem but require prior knowledge or predefined policies of new teammates, limiting real-world applications. To this end, we propose a hierarchical MARL approach to enable generalizable cooperation via role diversity, namely CORD. CORD's high-level controller assigns roles to low-level agents by maximizing the role entropy with constraints. We show this constrained objective can be decomposed into causal influence in role that enables reasonable role assignment, and role heterogeneity that yields coherent, non-redundant role clusters. Evaluated on a variety of cooperative multi-agent tasks, CORD achieves better performance than baselines, especially in generalization tests. Ablation studies further demonstrate the efficacy of the constrained objective in generalizable cooperation.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)は、効果的に協調できるエージェントを開発することを目的としている。
しかし、ほとんどの協調的なMARL手法は訓練エージェントに適合しすぎており、学習ポリシーは未確認の協力者にはうまく一般化しない。
いくつかの手法は一般化問題に対処しようとするが、新しいチームメイトの事前知識や事前定義されたポリシーを必要とし、現実世界のアプリケーションを制限する。
そこで本研究では,役割多様性,すなわち CORD を通じて,汎用的な協調を可能にする階層型 MARL アプローチを提案する。
CORDのハイレベルコントローラは、制約付きロールエントロピーを最大化することで、ローレベルエージェントにロールを割り当てる。
この制約された目的は、合理的な役割割り当てを可能にする役割の因果的影響と、一貫性のない非冗長な役割クラスタを生み出す役割の不均一性に分解できることを示す。
様々な協調型マルチエージェントタスクに基づいて評価し、特に一般化テストにおいて、CORDはベースラインよりも優れた性能を達成する。
アブレーション研究は、一般化可能な協調における制約対象の有効性をさらに示している。
関連論文リスト
- Role Play: Learning Adaptive Role-Specific Strategies in Multi-Agent Interactions [8.96091816092671]
emphRole Play (RP) という新しいフレームワークを提案する。
RPは、政策の多様性の課題を、より管理可能な役割の多様性に変えるために役割埋め込みを採用している。
ロール埋め込み観察で共通の方針を訓練し、他のエージェントのジョイントロール埋め込みを推定するためにロール予測器を使用し、学習エージェントが割り当てられた役割に適応するのを助ける。
論文 参考訳(メタデータ) (2024-11-02T07:25:48Z) - Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks [17.914928652949314]
階層型合意に基づくマルチエージェント強化学習(HC-MARL)フレームワークを導入し,その限界に対処する。
HC-MARLは、エージェント間のグローバルコンセンサスを促進するために対照的な学習を採用し、直接のコミュニケーションなしに協調行動を可能にする。
様々なタスクの動的な要求を満たすために、コンセンサスを複数の層に分割し、短期的および長期的考慮を包含する。
論文 参考訳(メタデータ) (2024-07-11T03:55:55Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - CURO: Curriculum Learning for Relative Overgeneralization [6.573807158449973]
相対的オーバージェネリゼーション(Relative Over generalization, RO)は、協調的なマルチエージェントタスクで発生する病理である。
相対オーバージェネリゼーション(CURO)のためのカリキュラム学習という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-06T03:41:08Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with
Dual Coordination Mechanism [17.993973801986677]
多エージェント強化学習はしばしば、多数のエージェントによって引き起こされる指数関数的に大きな作用空間に悩まされる。
完全協調型マルチエージェント問題に対する階層的強化学習に基づく新しい値分解フレームワークHAVENを提案する。
論文 参考訳(メタデータ) (2021-10-14T10:43:47Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - RODE: Learning Roles to Decompose Multi-Agent Tasks [69.56458960841165]
ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現するという約束を持っている。
本稿では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。
これらの進歩により、我々の手法は、挑戦的なStarCraft IIマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて、現在の最先端のMARLアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2020-10-04T09:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。