論文の概要: DFAC Framework: Factorizing the Value Function via Quantile Mixture for
Multi-Agent Distributional Q-Learning
- arxiv url: http://arxiv.org/abs/2102.07936v1
- Date: Tue, 16 Feb 2021 03:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 14:51:59.398102
- Title: DFAC Framework: Factorizing the Value Function via Quantile Mixture for
Multi-Agent Distributional Q-Learning
- Title(参考訳): DFACフレームワーク: マルチエージェント分布Q-Learningのためのクアンタイル混合による価値関数のファクタリング
- Authors: Wei-Fang Sun, Cheng-Kuang Lee, Chun-Yi Lee
- Abstract要約: 期待値関数ファクタリゼーション手法を一般化する分散値関数ファクタリゼーション(DFAC)フレームワークを提案する。
DFACは、個々のユーティリティ関数を決定論的変数からランダム変数に拡張し、全戻り値の量子関数を量子混合としてモデル化する。
DFACは,単純な2ステップマトリクスゲームを報酬付きで分解し,StarCraft Multi-Agent Challengeのすべてのスーパーハードタスクで実験を行う能力を示した。
- 参考スコア(独自算出の注目度): 7.893387199803367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In fully cooperative multi-agent reinforcement learning (MARL) settings, the
environments are highly stochastic due to the partial observability of each
agent and the continuously changing policies of the other agents. To address
the above issues, we integrate distributional RL and value function
factorization methods by proposing a Distributional Value Function
Factorization (DFAC) framework to generalize expected value function
factorization methods to their DFAC variants. DFAC extends the individual
utility functions from deterministic variables to random variables, and models
the quantile function of the total return as a quantile mixture. To validate
DFAC, we demonstrate DFAC's ability to factorize a simple two-step matrix game
with stochastic rewards and perform experiments on all Super Hard tasks of
StarCraft Multi-Agent Challenge, showing that DFAC is able to outperform
expected value function factorization baselines.
- Abstract(参考訳): 完全に協調的なマルチエージェント強化学習(MARL)設定では、各エージェントの部分的な可観測性と他のエージェントの継続的な変更ポリシーのために環境は非常に確率的です。
以上の課題を解決するため、分散関数ファクタリゼーション手法と分散関数ファクタリゼーション手法を統合し、分散関数ファクタリゼーション(DFAC)フレームワークを提案し、期待値関数ファクタリゼーション手法をDFAC変数に一般化する。
DFACは、個々のユーティリティ関数を決定論的変数からランダム変数に拡張し、全戻り値の量子関数を量子混合としてモデル化する。
DFACの有効性を検証するため,DFACは2段階の単純な行列ゲームを確率的報酬で分解し,StarCraft Multi-Agent Challengeの全スーパーハードタスクに対して実験を行い,DFACが期待値関数の分解基準を上回り得ることを示す。
関連論文リスト
- A Unified Framework for Factorizing Distributional Value Functions for
Multi-Agent Reinforcement Learning [15.042567946390362]
本稿では,分散 RL と値関数分解法を統合するための統合フレームワーク DFAC を提案する。
このフレームワークは、期待値関数の分解法を一般化し、戻り分布の分解を可能にする。
論文 参考訳(メタデータ) (2023-06-04T18:26:25Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Generalized Hidden Parameter MDPs Transferable Model-based RL in a
Handful of Trials [13.051708608864539]
一般化隠れMDP(英: Generalized Hidden MDPs、GHP-MDPs)は、タスクによって異なる隠れパラメータの関数として、力学と報酬の両方が変化するMDPのファミリーを指す。
我々は、報酬空間と動的潜伏空間を用いた新しい課題である MuJoCo タスクに対して、最先端性能とサンプル効率を実験的に実証した。
論文 参考訳(メタデータ) (2020-02-08T02:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。