論文の概要: A Unified Framework for Factorizing Distributional Value Functions for
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.02430v1
- Date: Sun, 4 Jun 2023 18:26:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 17:46:56.290480
- Title: A Unified Framework for Factorizing Distributional Value Functions for
Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のための分布値関数の統一化フレームワーク
- Authors: Wei-Fang Sun, Cheng-Kuang Lee, Simon See, and Chun-Yi Lee
- Abstract要約: 本稿では,分散 RL と値関数分解法を統合するための統合フレームワーク DFAC を提案する。
このフレームワークは、期待値関数の分解法を一般化し、戻り分布の分解を可能にする。
- 参考スコア(独自算出の注目度): 15.042567946390362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In fully cooperative multi-agent reinforcement learning (MARL) settings,
environments are highly stochastic due to the partial observability of each
agent and the continuously changing policies of other agents. To address the
above issues, we proposed a unified framework, called DFAC, for integrating
distributional RL with value function factorization methods. This framework
generalizes expected value function factorization methods to enable the
factorization of return distributions. To validate DFAC, we first demonstrate
its ability to factorize the value functions of a simple matrix game with
stochastic rewards. Then, we perform experiments on all Super Hard maps of the
StarCraft Multi-Agent Challenge and six self-designed Ultra Hard maps, showing
that DFAC is able to outperform a number of baselines.
- Abstract(参考訳): 完全協調型マルチエージェント強化学習(MARL)環境では、各エージェントの部分的観測可能性や、他のエージェントの継続的な変化による環境の確率が高い。
上記の問題に対処するため,分散RLと値関数の分解を統合化するための統合フレームワークDFACを提案した。
このフレームワークは期待値関数分解法を一般化し、戻り分布の分解を可能にする。
DFACを検証するために,我々はまず,確率的報酬を伴う単純な行列ゲームの価値関数を分解する能力を示す。
そして、StarCraft Multi-Agent ChallengeのすべてのSuper Hardマップと6つの自設計のUltra Hardマップで実験を行い、DFACが多くのベースラインより優れていることを示す。
関連論文リスト
- Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-01T08:07:16Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - Value Functions Factorization with Latent State Information Sharing in
Decentralized Multi-Agent Policy Gradients [43.862956745961654]
LSF-SACは、変分推論に基づく情報共有機構を余分な状態情報として特徴付ける新しいフレームワークである。
我々は,StarCraft II マイクロマネジメント課題における LSF-SAC の評価を行った。
論文 参考訳(メタデータ) (2022-01-04T17:05:07Z) - Model based Multi-agent Reinforcement Learning with Tensor
Decompositions [52.575433758866936]
本稿では、CPランクの低いテンソルとして遷移関数と報酬関数をモデル化することにより、未探索の状態-作用対上の状態-作用空間の一般化を考察する。
合成MDPの実験により、モデルに基づく強化学習アルゴリズムでテンソル分解を用いることで、真の遷移関数と報酬関数が実際に低ランクである場合、はるかに高速な収束が得られることが示された。
論文 参考訳(メタデータ) (2021-10-27T15:36:25Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - DFAC Framework: Factorizing the Value Function via Quantile Mixture for
Multi-Agent Distributional Q-Learning [7.893387199803367]
期待値関数ファクタリゼーション手法を一般化する分散値関数ファクタリゼーション(DFAC)フレームワークを提案する。
DFACは、個々のユーティリティ関数を決定論的変数からランダム変数に拡張し、全戻り値の量子関数を量子混合としてモデル化する。
DFACは,単純な2ステップマトリクスゲームを報酬付きで分解し,StarCraft Multi-Agent Challengeのすべてのスーパーハードタスクで実験を行う能力を示した。
論文 参考訳(メタデータ) (2021-02-16T03:16:49Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。