論文の概要: Multi-Agent Determinantal Q-Learning
- arxiv url: http://arxiv.org/abs/2006.01482v4
- Date: Tue, 9 Jun 2020 17:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 01:14:18.661355
- Title: Multi-Agent Determinantal Q-Learning
- Title(参考訳): マルチエージェント決定型Q-Learning
- Authors: Yaodong Yang, Ying Wen, Liheng Chen, Jun Wang, Kun Shao, David Mguni,
Weinan Zhang
- Abstract要約: マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。
分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
- 参考スコア(独自算出の注目度): 39.79718674655209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Centralized training with decentralized execution has become an important
paradigm in multi-agent learning. Though practical, current methods rely on
restrictive assumptions to decompose the centralized value function across
agents for execution. In this paper, we eliminate this restriction by proposing
multi-agent determinantal Q-learning. Our method is established on Q-DPP, an
extension of determinantal point process (DPP) with partition-matroid
constraint to multi-agent setting. Q-DPP promotes agents to acquire diverse
behavioral models; this allows a natural factorization of the joint Q-functions
with no need for \emph{a priori} structural constraints on the value function
or special network architectures. We demonstrate that Q-DPP generalizes major
solutions including VDN, QMIX, and QTRAN on decentralizable cooperative tasks.
To efficiently draw samples from Q-DPP, we adopt an existing
sample-by-projection sampler with theoretical approximation guarantee. The
sampler also benefits exploration by coordinating agents to cover orthogonal
directions in the state space during multi-agent training. We evaluate our
algorithm on various cooperative benchmarks; its effectiveness has been
demonstrated when compared with the state-of-the-art.
- Abstract(参考訳): 分散実行による集中型トレーニングは、マルチエージェント学習において重要なパラダイムとなっている。
実用的ではあるが、現在の方法は、実行エージェント間で集中値関数を分解する制限付き仮定に依存している。
本稿では,マルチエージェント決定型Q-ラーニングを提案することで,この制限を解消する。
本手法は,マルチエージェント設定へのパーティショニング・マトロイド制約付き行列点過程(dpp)の拡張であるq-dpp上で確立する。
Q-DPPはエージェントが多様な行動モデルを取得することを促進し、これは値関数や特別なネットワークアーキテクチャに関する構造的制約を不要に、共同Q-関数の自然な分解を可能にする。
分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
q-dppから効率的にサンプルを抽出するために, 理論的近似保証のある既存のサンプル・バイ・プロジェクション・サンプラーを採用する。
このサンプルは、マルチエージェントトレーニング中の状態空間の直交方向をカバーするために、エージェントの調整による探索にも効果がある。
我々は,様々な協調ベンチマークを用いてアルゴリズムを評価し,その効果を最新技術と比較した。
関連論文リスト
- Decentralised Q-Learning for Multi-Agent Markov Decision Processes with
a Satisfiability Criterion [0.0]
マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。
目標は、各エージェントの時間平均コストを、指定されたエージェント固有のバウンド以下にすることである。
論文 参考訳(メタデータ) (2023-11-21T13:56:44Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint
Multi-Agent Trajectory Prediction [73.25645602768158]
IPCC-TPはインクリメンタルピアソン相関係数に基づく新しい関連認識モジュールであり,マルチエージェントインタラクションモデリングを改善する。
我々のモジュールは、既存のマルチエージェント予測手法に便利に組み込んで、元の動き分布デコーダを拡張することができる。
論文 参考訳(メタデータ) (2023-03-01T15:16:56Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - Towards Understanding Cooperative Multi-Agent Q-Learning with Value
Factorization [28.89692989420673]
因子化多エージェントQ-ラーニングを解析するための多エージェント適合Q-イテレーションフレームワークを形式化する。
さらなる分析により、オンライン学習やよりリッチなジョイントバリュー関数クラスは、その局所的あるいは大域的収束特性を改善することができる。
論文 参考訳(メタデータ) (2020-05-31T19:14:03Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。