論文の概要: Fixing Incomplete Value Function Decomposition for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.10484v1
- Date: Thu, 15 May 2025 16:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.423477
- Title: Fixing Incomplete Value Function Decomposition for Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のための不完全値関数分解の修正
- Authors: Andrea Baisero, Rupali Bhati, Shuo Liu, Aathira Pillai, Christopher Amato,
- Abstract要約: 本稿では,従来のモデルの表現能力を,薄い「固定」層で拡張した新しい値関数分解モデルを提案する。
我々は、QFIXの複数の変種を導き、よく知られた2つのマルチエージェントフレームワークに3つの変種を実装する。
- 参考スコア(独自算出の注目度): 14.664083077278002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Value function decomposition methods for cooperative multi-agent reinforcement learning compose joint values from individual per-agent utilities, and train them using a joint objective. To ensure that the action selection process between individual utilities and joint values remains consistent, it is imperative for the composition to satisfy the individual-global max (IGM) property. Although satisfying IGM itself is straightforward, most existing methods (e.g., VDN, QMIX) have limited representation capabilities and are unable to represent the full class of IGM values, and the one exception that has no such limitation (QPLEX) is unnecessarily complex. In this work, we present a simple formulation of the full class of IGM values that naturally leads to the derivation of QFIX, a novel family of value function decomposition models that expand the representation capabilities of prior models by means of a thin "fixing" layer. We derive multiple variants of QFIX, and implement three variants in two well-known multi-agent frameworks. We perform an empirical evaluation on multiple SMACv2 and Overcooked environments, which confirms that QFIX (i) succeeds in enhancing the performance of prior methods, (ii) learns more stably and performs better than its main competitor QPLEX, and (iii) achieves this while employing the simplest and smallest mixing models.
- Abstract(参考訳): 協調型マルチエージェント強化学習における値関数分解法は, 個々のエージェントごとのジョイント値を構成し, 共同目的を用いてそれらを訓練する。
個々のユーティリティとジョイント値のアクション選択プロセスが一貫していることを保証するため、個々のグローバルマックス(IGM)特性を満足させることが不可欠である。
IGM自体を満たすことは単純であるが、既存のほとんどのメソッド(例えば、VDN、QMIX)は限定的な表現能力を持ち、IGM値の完全なクラスを表現することができず、そのような制限を持たない例外(QPLEX)は必要以上に複雑である。
本稿では,従来のモデルの表現能力を「固定」層で拡張する新しい値関数分解モデルであるQFIXの導出を自然に導く,IGG値の全クラスの簡単な定式化について述べる。
我々は、QFIXの複数の変種を導き、よく知られた2つのマルチエージェントフレームワークに3つの変種を実装する。
複数のSMACv2およびオーバークッキング環境上で実証評価を行い、QFIXを確認した。
(i)先行手法の性能向上に成功。
(ii) より安定して学習し、主要な競合であるQPLEXより優れた性能を発揮する。
(iii)最も単純かつ最小の混合モデルを用いてこれを実現する。
関連論文リスト
- MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z) - Multi-Attribute Constraint Satisfaction via Language Model Rewriting [67.5778646504987]
マルチ属性制約満足度(英: Multi-Attribute Constraint Satisfaction, MACS)は、言語モデルを微調整して、複数の外部実値属性に対するユーザ指定制約を満たす手法である。
我々の研究は、NLPやバイオインフォマティクスにまたがる多様な応用に影響を及ぼす、一般化および実値多属性制御のための新しい道を開く。
論文 参考訳(メタデータ) (2024-12-26T12:36:39Z) - A Unified Framework for Factorizing Distributional Value Functions for
Multi-Agent Reinforcement Learning [15.042567946390362]
本稿では,分散 RL と値関数分解法を統合するための統合フレームワーク DFAC を提案する。
このフレームワークは、期待値関数の分解法を一般化し、戻り分布の分解を可能にする。
論文 参考訳(メタデータ) (2023-06-04T18:26:25Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - QPLEX: Duplex Dueling Multi-Agent Q-Learning [31.402074624147822]
我々は、分散実行型集中訓練(CTDE)の一般的なパラダイムにおける価値に基づくマルチエージェント強化学習(MARL)について検討する。
既存のMARLメソッドは、値関数クラスの表現を制限するか、パーソナライズ・グローバル・マックス(IGM)の原理を緩和する。
本稿では,DuPlexによるマルチエージェントQ-ラーニングについて述べる。
論文 参考訳(メタデータ) (2020-08-03T17:52:09Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。