Fugu-MT 論文翻訳(概要): PAC: Assisted Value Factorisation with Counterfactual Predictions in Multi-Agent Reinforcement Learning

論文の概要: PAC: Assisted Value Factorisation with Counterfactual Predictions in Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2206.11420v1
Date: Wed, 22 Jun 2022 23:34:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-25 01:21:50.582101
Title: PAC: Assisted Value Factorisation with Counterfactual Predictions in Multi-Agent Reinforcement Learning
Title（参考訳）: PAC:マルチエージェント強化学習における対実予測による価値要因化支援
Authors: Hanhan Zhou, Tian Lan, Vaneet Aggarwal
Abstract要約: 多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
参考スコア（独自算出の注目度）: 43.862956745961654
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-agent reinforcement learning (MARL) has witnessed significant progress with the development of value function factorization methods. It allows optimizing a joint action-value function through the maximization of factorized per-agent utilities due to monotonicity. In this paper, we show that in partially observable MARL problems, an agent's ordering over its own actions could impose concurrent constraints (across different states) on the representable function class, causing significant estimation error during training. We tackle this limitation and propose PAC, a new framework leveraging Assistive information generated from Counterfactual Predictions of optimal joint action selection, which enable explicit assistance to value function factorization through a novel counterfactual loss. A variational inference-based information encoding method is developed to collect and encode the counterfactual predictions from an estimated baseline. To enable decentralized execution, we also derive factorized per-agent policies inspired by a maximum-entropy MARL framework. We evaluate the proposed PAC on multi-agent predator-prey and a set of StarCraft II micromanagement tasks. Empirical results demonstrate improved results of PAC over state-of-the-art value-based and policy-based multi-agent reinforcement learning algorithms on all benchmarks.
Abstract（参考訳）: 多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせた。単調性による因子化毎の効用を最大化することで、共同作用値関数を最適化することができる。本稿では,marl問題の部分的観測において,エージェントが自分自身のアクションを順序づけすることで,表現可能な関数クラスに並列制約(異なる状態)を課し,トレーニング中にかなりの推定誤差を生じさせることを示した。本稿では,この制約に対処し,新たな反事実損失による価値関数分解への明示的な支援を可能にする,最適行動選択の反事実予測から生じる支援情報を活用した新しい枠組みpacを提案する。変動推論に基づく情報符号化法を開発し、推定ベースラインから反現実予測を収集・符号化する。分散実行を可能にするために,最大エントロピーmarlフレームワークにインスパイアされた,エージェント毎のファクタリゼーションポリシも導出する。提案したPACを,マルチエージェント捕食者とStarCraft IIマイクロマネジメントタスクのセットで評価した。実証実験の結果,すべてのベンチマークにおいて,最先端のバリューベースおよびポリシベースのマルチエージェント強化学習アルゴリズムに対するpacの効果が向上した。

関連論文リスト

Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。悲惨な忘れ物はモデルパフォーマンスを著しく損なう本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文参考訳（メタデータ） (2025-01-21T13:33:45Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
QFree: A Universal Value Function Factorization for Multi-Agent Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文参考訳（メタデータ） (2023-11-01T08:07:16Z)
A Unified Framework for Factorizing Distributional Value Functions for Multi-Agent Reinforcement Learning [15.042567946390362]
本稿では,分散 RL と値関数分解法を統合するための統合フレームワーク DFAC を提案する。このフレームワークは、期待値関数の分解法を一般化し、戻り分布の分解を可能にする。
論文参考訳（メタデータ） (2023-06-04T18:26:25Z)
MA2CL:Masked Attentive Contrastive Learning for Multi-Agent Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。 MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文参考訳（メタデータ） (2023-06-03T05:32:19Z)
RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。 RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文参考訳（メタデータ） (2022-06-02T03:39:27Z)
Value Functions Factorization with Latent State Information Sharing in Decentralized Multi-Agent Policy Gradients [43.862956745961654]
LSF-SACは、変分推論に基づく情報共有機構を余分な状態情報として特徴付ける新しいフレームワークである。我々は,StarCraft II マイクロマネジメント課題における LSF-SAC の評価を行った。
論文参考訳（メタデータ） (2022-01-04T17:05:07Z)
Permutation Invariant Policy Optimization for Mean-Field Multi-Agent Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文参考訳（メタデータ） (2021-05-18T04:35:41Z)
Modeling the Interaction between Agents in Cooperative Multi-Agent Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。 IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文参考訳（メタデータ） (2021-02-10T01:58:28Z)
Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文参考訳（メタデータ） (2020-09-21T09:11:36Z)
Multi-Agent Determinantal Q-Learning [39.79718674655209]
マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
論文参考訳（メタデータ） (2020-06-02T09:32:48Z)
FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文参考訳（メタデータ） (2020-03-14T21:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。