Fugu-MT 論文翻訳(概要): A Unified Framework for Factorizing Distributional Value Functions for Multi-Agent Reinforcement Learning

論文の概要: A Unified Framework for Factorizing Distributional Value Functions for Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2306.02430v1
Date: Sun, 4 Jun 2023 18:26:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-06 17:46:56.290480
Title: A Unified Framework for Factorizing Distributional Value Functions for Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習のための分布値関数の統一化フレームワーク
Authors: Wei-Fang Sun, Cheng-Kuang Lee, Simon See, and Chun-Yi Lee
Abstract要約: 本稿では,分散 RL と値関数分解法を統合するための統合フレームワーク DFAC を提案する。このフレームワークは、期待値関数の分解法を一般化し、戻り分布の分解を可能にする。
参考スコア（独自算出の注目度）: 15.042567946390362
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In fully cooperative multi-agent reinforcement learning (MARL) settings, environments are highly stochastic due to the partial observability of each agent and the continuously changing policies of other agents. To address the above issues, we proposed a unified framework, called DFAC, for integrating distributional RL with value function factorization methods. This framework generalizes expected value function factorization methods to enable the factorization of return distributions. To validate DFAC, we first demonstrate its ability to factorize the value functions of a simple matrix game with stochastic rewards. Then, we perform experiments on all Super Hard maps of the StarCraft Multi-Agent Challenge and six self-designed Ultra Hard maps, showing that DFAC is able to outperform a number of baselines.
Abstract（参考訳）: 完全協調型マルチエージェント強化学習(MARL)環境では、各エージェントの部分的観測可能性や、他のエージェントの継続的な変化による環境の確率が高い。上記の問題に対処するため,分散RLと値関数の分解を統合化するための統合フレームワークDFACを提案した。このフレームワークは期待値関数分解法を一般化し、戻り分布の分解を可能にする。 DFACを検証するために,我々はまず,確率的報酬を伴う単純な行列ゲームの価値関数を分解する能力を示す。そして、StarCraft Multi-Agent ChallengeのすべてのSuper Hardマップと6つの自設計のUltra Hardマップで実験を行い、DFACが多くのベースラインより優れていることを示す。

関連論文リスト

Fixing Incomplete Value Function Decomposition for Multi-Agent Reinforcement Learning [14.664083077278002]
本稿では,従来のモデルの表現能力を,薄い「固定」層で拡張した新しい値関数分解モデルを提案する。我々は、QFIXの複数の変種を導き、よく知られた2つのマルチエージェントフレームワークに3つの変種を実装する。
論文参考訳（メタデータ） (2025-05-15T16:36:18Z)
Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文参考訳（メタデータ） (2025-01-25T14:24:50Z)
Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文参考訳（メタデータ） (2023-11-15T04:40:43Z)
QFree: A Universal Value Function Factorization for Multi-Agent Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文参考訳（メタデータ） (2023-11-01T08:07:16Z)
PAC: Assisted Value Factorisation with Counterfactual Predictions in Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文参考訳（メタデータ） (2022-06-22T23:34:30Z)
Value Functions Factorization with Latent State Information Sharing in Decentralized Multi-Agent Policy Gradients [43.862956745961654]
LSF-SACは、変分推論に基づく情報共有機構を余分な状態情報として特徴付ける新しいフレームワークである。我々は,StarCraft II マイクロマネジメント課題における LSF-SAC の評価を行った。
論文参考訳（メタデータ） (2022-01-04T17:05:07Z)
Model based Multi-agent Reinforcement Learning with Tensor Decompositions [52.575433758866936]
本稿では、CPランクの低いテンソルとして遷移関数と報酬関数をモデル化することにより、未探索の状態-作用対上の状態-作用空間の一般化を考察する。合成MDPの実験により、モデルに基づく強化学習アルゴリズムでテンソル分解を用いることで、真の遷移関数と報酬関数が実際に低ランクである場合、はるかに高速な収束が得られることが示された。
論文参考訳（メタデータ） (2021-10-27T15:36:25Z)
Permutation Invariant Policy Optimization for Mean-Field Multi-Agent Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文参考訳（メタデータ） (2021-05-18T04:35:41Z)
DFAC Framework: Factorizing the Value Function via Quantile Mixture for Multi-Agent Distributional Q-Learning [7.893387199803367]
期待値関数ファクタリゼーション手法を一般化する分散値関数ファクタリゼーション(DFAC)フレームワークを提案する。 DFACは、個々のユーティリティ関数を決定論的変数からランダム変数に拡張し、全戻り値の量子関数を量子混合としてモデル化する。 DFACは,単純な2ステップマトリクスゲームを報酬付きで分解し,StarCraft Multi-Agent Challengeのすべてのスーパーハードタスクで実験を行う能力を示した。
論文参考訳（メタデータ） (2021-02-16T03:16:49Z)
UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文参考訳（メタデータ） (2021-01-20T07:24:24Z)
Randomized Entity-wise Factorization for Multi-Agent Reinforcement Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文参考訳（メタデータ） (2020-06-07T18:28:41Z)
FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文参考訳（メタデータ） (2020-03-14T21:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。