論文の概要: Boosting Value Decomposition via Unit-Wise Attentive State
Representation for Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.07182v1
- Date: Fri, 12 May 2023 00:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 14:28:02.866524
- Title: Boosting Value Decomposition via Unit-Wise Attentive State
Representation for Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習のための単位ウェイズ注意状態表現による値分解の促進
- Authors: Qingpeng Zhao, Yuanyang Zhu, Zichuan Liu, Zhi Wang and Chunlin Chen
- Abstract要約: 半可観測性を緩和し,UNSR(UNit-wise Attentive State Representation)による協調を効果的に促進する,シンプルかつ強力な手法を提案する。
UNSRでは、各エージェントは変換器ブロックから出力されるコンパクトで不整合な単位状態表現を学習し、その局所的なアクション値関数を生成する。
実験の結果,Star IICraftマイクロマネジメントの課題に対して,ソリッドベースラインよりも優れた性能とデータ効率が得られた。
- 参考スコア(独自算出の注目度): 11.843811402154408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cooperative multi-agent reinforcement learning (MARL), the environmental
stochasticity and uncertainties will increase exponentially when the number of
agents increases, which puts hard pressure on how to come up with a compact
latent representation from partial observation for boosting value
decomposition. To tackle these issues, we propose a simple yet powerful method
that alleviates partial observability and efficiently promotes coordination by
introducing the UNit-wise attentive State Representation (UNSR). In UNSR, each
agent learns a compact and disentangled unit-wise state representation
outputted from transformer blocks, and produces its local action-value
function. The proposed UNSR is used to boost the value decomposition with a
multi-head attention mechanism for producing efficient credit assignment in the
mixing network, providing an efficient reasoning path between the individual
value function and joint value function. Experimental results demonstrate that
our method achieves superior performance and data efficiency compared to solid
baselines on the StarCraft II micromanagement challenge. Additional ablation
experiments also help identify the key factors contributing to the performance
of UNSR.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)では, エージェント数が増えると, 環境確率性と不確実性が指数関数的に増加し, 部分的な観察からコンパクトな潜伏表現を導き, 値分解を促進させる。
これらの課題に対処するため,UNSR(UNit-wise Attentive State Representation)を導入して,部分観測可能性の緩和と協調の効率化を図る,シンプルかつ強力な手法を提案する。
UNSRでは、各エージェントは変換器ブロックから出力されるコンパクトで不整合な単位状態表現を学び、その局所的なアクション値関数を生成する。
提案するUNSRは, 個別値関数と結合値関数の効率的な推論経路を提供する混合ネットワークにおいて, 効率的なクレジット割当を生成するマルチヘッドアテンション機構を用いて, 値分解の促進に使用される。
実験により,本手法はStarCraft IIマイクロマネジメントチャレンジのベースラインよりも優れた性能とデータ効率を実現することが示された。
さらなるアブレーション実験は、UNSRの性能に寄与する重要な要因を特定するのに役立つ。
関連論文リスト
- The challenge of redundancy on multi-agent value factorisation [12.63182277116319]
協調型マルチエージェント強化学習(MARL)の分野において、標準パラダイムは集中型トレーニングと分散実行の利用である。
そこで我々は,LRP(Layerwise Relevance propagation)を利用して,結合値関数の学習と局所報酬信号の生成を分離する手法を提案する。
VDNとQmixの両方のベースラインの性能は冗長エージェントの数によって低下するが、RDNは影響を受けない。
論文 参考訳(メタデータ) (2023-03-28T20:41:12Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Adaptive Value Decomposition with Greedy Marginal Contribution
Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。
単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。
非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T07:23:59Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Value Functions Factorization with Latent State Information Sharing in
Decentralized Multi-Agent Policy Gradients [43.862956745961654]
LSF-SACは、変分推論に基づく情報共有機構を余分な状態情報として特徴付ける新しいフレームワークである。
我々は,StarCraft II マイクロマネジメント課題における LSF-SAC の評価を行った。
論文 参考訳(メタデータ) (2022-01-04T17:05:07Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - Reward Machines for Cooperative Multi-Agent Reinforcement Learning [30.84689303706561]
協調型マルチエージェント強化学習において、エージェントの集合は共通の目標を達成するために共有環境で対話することを学ぶ。
本稿では、報酬関数の構造化表現として使われる単純な機械である報酬機械(RM)を用いて、チームのタスクを符号化する手法を提案する。
マルチエージェント設定におけるRMの新たな解釈は、要求されるチームメイト相互依存性を明示的に符号化し、チームレベルのタスクを個々のエージェントのサブタスクに分解することを可能にする。
論文 参考訳(メタデータ) (2020-07-03T23:08:14Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。