論文の概要: PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.11420v1
- Date: Wed, 22 Jun 2022 23:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 01:21:50.582101
- Title: PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning
- Title(参考訳): PAC:マルチエージェント強化学習における対実予測による価値要因化支援
- Authors: Hanhan Zhou, Tian Lan, Vaneet Aggarwal
- Abstract要約: 多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
- 参考スコア(独自算出の注目度): 43.862956745961654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) has witnessed significant progress
with the development of value function factorization methods. It allows
optimizing a joint action-value function through the maximization of factorized
per-agent utilities due to monotonicity. In this paper, we show that in
partially observable MARL problems, an agent's ordering over its own actions
could impose concurrent constraints (across different states) on the
representable function class, causing significant estimation error during
training. We tackle this limitation and propose PAC, a new framework leveraging
Assistive information generated from Counterfactual Predictions of optimal
joint action selection, which enable explicit assistance to value function
factorization through a novel counterfactual loss. A variational
inference-based information encoding method is developed to collect and encode
the counterfactual predictions from an estimated baseline. To enable
decentralized execution, we also derive factorized per-agent policies inspired
by a maximum-entropy MARL framework. We evaluate the proposed PAC on
multi-agent predator-prey and a set of StarCraft II micromanagement tasks.
Empirical results demonstrate improved results of PAC over state-of-the-art
value-based and policy-based multi-agent reinforcement learning algorithms on
all benchmarks.
- Abstract(参考訳): 多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせた。
単調性による因子化毎の効用を最大化することで、共同作用値関数を最適化することができる。
本稿では,marl問題の部分的観測において,エージェントが自分自身のアクションを順序づけすることで,表現可能な関数クラスに並列制約(異なる状態)を課し,トレーニング中にかなりの推定誤差を生じさせることを示した。
本稿では,この制約に対処し,新たな反事実損失による価値関数分解への明示的な支援を可能にする,最適行動選択の反事実予測から生じる支援情報を活用した新しい枠組みpacを提案する。
変動推論に基づく情報符号化法を開発し、推定ベースラインから反現実予測を収集・符号化する。
分散実行を可能にするために,最大エントロピーmarlフレームワークにインスパイアされた,エージェント毎のファクタリゼーションポリシも導出する。
提案したPACを,マルチエージェント捕食者とStarCraft IIマイクロマネジメントタスクのセットで評価した。
実証実験の結果,すべてのベンチマークにおいて,最先端のバリューベースおよびポリシベースのマルチエージェント強化学習アルゴリズムに対するpacの効果が向上した。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-01T08:07:16Z) - A Unified Framework for Factorizing Distributional Value Functions for
Multi-Agent Reinforcement Learning [15.042567946390362]
本稿では,分散 RL と値関数分解法を統合するための統合フレームワーク DFAC を提案する。
このフレームワークは、期待値関数の分解法を一般化し、戻り分布の分解を可能にする。
論文 参考訳(メタデータ) (2023-06-04T18:26:25Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Value Functions Factorization with Latent State Information Sharing in
Decentralized Multi-Agent Policy Gradients [43.862956745961654]
LSF-SACは、変分推論に基づく情報共有機構を余分な状態情報として特徴付ける新しいフレームワークである。
我々は,StarCraft II マイクロマネジメント課題における LSF-SAC の評価を行った。
論文 参考訳(メタデータ) (2022-01-04T17:05:07Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Multi-Agent Determinantal Q-Learning [39.79718674655209]
マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。
分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
論文 参考訳(メタデータ) (2020-06-02T09:32:48Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。