論文の概要: Contrastive Identity-Aware Learning for Multi-Agent Value Decomposition
- arxiv url: http://arxiv.org/abs/2211.12712v1
- Date: Wed, 23 Nov 2022 05:18:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 14:39:25.401704
- Title: Contrastive Identity-Aware Learning for Multi-Agent Value Decomposition
- Title(参考訳): マルチエージェント値分解のためのコントラストid-aware learning
- Authors: Shunyu Liu, Yihe Zhou, Jie Song, Tongya Zheng, Kaixuan Chen, Tongtian
Zhu, Zunlei Feng, Mingli Song
- Abstract要約: 価値分解(VD)は、グローバルな報酬のみの存在下で、分散政策へのエージェントの貢献を推論することを目的としている。
VDの主な課題の1つは、エージェント間の多様な振る舞いを促進することであり、既存の手法は学習エージェントネットワークの多様性を直接的に促進する。
本稿では、VDネットワークの信用レベルの識別性を明示的に向上する、新しいContrastive Identity-Aware Learning(CIA)手法を提案する。
- 参考スコア(独自算出の注目度): 31.877237996738252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value Decomposition (VD) aims to deduce the contributions of agents for
decentralized policies in the presence of only global rewards, and has recently
emerged as a powerful credit assignment paradigm for tackling cooperative
Multi-Agent Reinforcement Learning (MARL) problems. One of the main challenges
in VD is to promote diverse behaviors among agents, while existing methods
directly encourage the diversity of learned agent networks with various
strategies. However, we argue that these dedicated designs for agent networks
are still limited by the indistinguishable VD network, leading to homogeneous
agent behaviors and thus downgrading the cooperation capability. In this paper,
we propose a novel Contrastive Identity-Aware learning (CIA) method, explicitly
boosting the credit-level distinguishability of the VD network to break the
bottleneck of multi-agent diversity. Specifically, our approach leverages
contrastive learning to maximize the mutual information between the temporal
credits and identity representations of different agents, encouraging the full
expressiveness of credit assignment and further the emergence of
individualities. The algorithm implementation of the proposed CIA module is
simple yet effective that can be readily incorporated into various VD
architectures. Experiments on the SMAC benchmarks and across different VD
backbones demonstrate that the proposed method yields results superior to the
state-of-the-art counterparts. Our code is available at
https://github.com/liushunyu/CIA.
- Abstract(参考訳): 価値分解(vd)は,グローバル報酬のみを前提とした分散政策へのエージェントの貢献を推測することを目的としており,近年,協調的マルチエージェント強化学習(marl)問題に取り組むための強力なクレジット割り当てパラダイムとして浮上している。
VDの主な課題の1つはエージェント間の多様な行動を促進することであるが、既存の手法は学習したエージェントネットワークの様々な戦略を直接的に促進する。
しかし,これらのエージェントネットワーク専用設計は,識別不能なvdネットワークによって制限されるため,同質的なエージェントの振る舞いが得られ,協調能力が低下する。
本稿では,vdネットワークのクレジットレベルの識別性を高め,マルチエージェント多様性のボトルネックを解消する新しいコントラストid-aware learning(cia)手法を提案する。
具体的には,コントラスト学習を活用し,時間的信用と異なるエージェントのアイデンティティ表現間の相互情報を最大化し,信用割当の完全な表現性と個性の出現を促進する。
提案したCIAモジュールのアルゴリズムの実装は単純だが有効であり、様々なVDアーキテクチャに容易に組み込むことができる。
SMACベンチマークと異なるVDバックボーンを用いた実験により、提案手法は最先端の手法よりも優れた結果が得られることを示した。
私たちのコードはhttps://github.com/liushunyu/ciaで利用可能です。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z) - Reframing the Relationship in Out-of-Distribution Detection [4.182518087792777]
本稿では,エージェントパラダイムをアウト・オブ・ディストリビューション(OOD)検出タスクに統合する新しいアプローチを提案する。
提案手法であるConcept Matching with Agent (CMA) は、CLIPに基づくOOD検出プロセスを強化するために、中性プロンプトをエージェントとして利用する。
実験結果から, ゼロショット法とトレーニング要求法の両方よりもCMAの方が優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-27T02:27:28Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - A Variational Approach to Mutual Information-Based Coordination for
Multi-Agent Reinforcement Learning [17.893310647034188]
マルチエージェント強化学習のための新しい相互情報フレームワークを提案する。
導出された下界を最大化するためにポリシーを適用することで,多エージェントアクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクティベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-01T12:21:30Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - Celebrating Diversity in Shared Multi-Agent Reinforcement Learning [20.901606233349177]
深層多エージェント強化学習は、複雑な協調的な課題を解決することを約束している。
本稿では,共有型マルチエージェント強化学習の最適化と表現に多様性を導入することを目的とする。
提案手法は,Google Research Footballと超硬度StarCraft IIマイクロマネジメントタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-06-04T00:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。