論文の概要: QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.00356v1
- Date: Wed, 1 Nov 2023 08:07:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:18:33.288165
- Title: QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning
- Title(参考訳): QFree:マルチエージェント強化学習のための普遍的値関数係数化
- Authors: Rizhong Wang, Huiping Li, Di Cui, Demin Xu
- Abstract要約: マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 2.287186762346021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Centralized training is widely utilized in the field of multi-agent
reinforcement learning (MARL) to assure the stability of training process. Once
a joint policy is obtained, it is critical to design a value function
factorization method to extract optimal decentralized policies for the agents,
which needs to satisfy the individual-global-max (IGM) principle. While
imposing additional limitations on the IGM function class can help to meet the
requirement, it comes at the cost of restricting its application to more
complex multi-agent environments. In this paper, we propose QFree, a universal
value function factorization method for MARL. We start by developing
mathematical equivalent conditions of the IGM principle based on the advantage
function, which ensures that the principle holds without any compromise,
removing the conservatism of conventional methods. We then establish a more
expressive mixing network architecture that can fulfill the equivalent
factorization. In particular, the novel loss function is developed by
considering the equivalent conditions as regularization term during policy
evaluation in the MARL algorithm. Finally, the effectiveness of the proposed
method is verified in a nonmonotonic matrix game scenario. Moreover, we show
that QFree achieves the state-of-the-art performance in a general-purpose
complex MARL benchmark environment, Starcraft Multi-Agent Challenge (SMAC).
- Abstract(参考訳): 集中型トレーニングはマルチエージェント強化学習(marl)の分野で広く活用され、トレーニングプロセスの安定性を保証する。
共同政策が得られたら、各エージェントに対して最適な分散化政策を抽出する値関数分解法を設計することが重要であり、これは個々のグローバルマックス(IGM)の原則を満たす必要がある。
IGM関数クラスに追加の制限を加えることは、要件を満たすのに役立つが、より複雑なマルチエージェント環境にアプリケーションを制限するコストがかかる。
本稿では,MARLの普遍値関数分解法であるQFreeを提案する。
まず、優位関数に基づくIGM原理の数学的等価条件の開発から始め、従来の手法の保守性を取り除き、原理が妥協なく保たれることを保証する。
そして、同等の因子化を満たせるより表現力豊かな混合ネットワークアーキテクチャを確立します。
特に、marlアルゴリズムにおける政策評価中に等価条件を正規化項として考慮し、新たな損失関数を開発する。
最後に,提案手法の有効性を非単調な行列ゲームシナリオで検証する。
さらに,汎用複雑なMARLベンチマーク環境であるStarcraft Multi-Agent Challenge (SMAC) において,QFreeが最先端の性能を達成することを示す。
関連論文リスト
- Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization [5.54284350152423]
本稿では,最大エントロピーRLフレームワークに付加的な局所Q値学習手法を組み込むことにより,QMIXの強化を提案する。
我々のアプローチは、全てのアクションの正しい順序を維持するために、局所的なQ値の推定を制約する。
理論的には,本手法の単調改善と収束性を最適解に証明する。
論文 参考訳(メタデータ) (2024-06-20T01:55:08Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Achieving Fairness in Multi-Agent Markov Decision Processes Using
Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。
このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2023-06-01T03:43:53Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。