論文の概要: Improving monotonic optimization in heterogeneous multi-agent reinforcement learning with optimal marginal deterministic policy gradient
- arxiv url: http://arxiv.org/abs/2507.09989v1
- Date: Mon, 14 Jul 2025 07:16:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.463081
- Title: Improving monotonic optimization in heterogeneous multi-agent reinforcement learning with optimal marginal deterministic policy gradient
- Title(参考訳): 最適限界決定論的政策勾配を用いた異種マルチエージェント強化学習における単調最適化の改善
- Authors: Xiaoyang Yu, Youfang Lin, Shuo Wang, Sheng Han,
- Abstract要約: 異種多エージェント強化学習(MARL)
逐次計算された$Q_psi*(s,a_1:i)$を、Q関数から派生した$phi_psi*(s,a_1:i)$に客観的に置き換える。
一般化Q批判(GQC)を批判関数とし、悲観的不確実性制約損失を用いて異なるQ値推定を最適化する。
- 参考スコア(独自算出の注目度): 18.64288030584699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In heterogeneous multi-agent reinforcement learning (MARL), achieving monotonic improvement plays a pivotal role in enhancing performance. The HAPPO algorithm proposes a feasible solution by introducing a sequential update scheme, which requires independent learning with No Parameter-sharing (NoPS). However, heterogeneous MARL generally requires Partial Parameter-sharing (ParPS) based on agent grouping to achieve high cooperative performance. Our experiments prove that directly combining ParPS with the sequential update scheme leads to the policy updating baseline drift problem, thereby failing to achieve improvement. To solve the conflict between monotonic improvement and ParPS, we propose the Optimal Marginal Deterministic Policy Gradient (OMDPG) algorithm. First, we replace the sequentially computed $Q_{\psi}^s(s,a_{1:i})$ with the Optimal Marginal Q (OMQ) function $\phi_{\psi}^*(s,a_{1:i})$ derived from Q-functions. This maintains MAAD's monotonic improvement while eliminating the conflict through optimal joint action sequences instead of sequential policy ratio calculations. Second, we introduce the Generalized Q Critic (GQC) as the critic function, employing pessimistic uncertainty-constrained loss to optimize different Q-value estimations. This provides the required Q-values for OMQ computation and stable baselines for actor updates. Finally, we implement a Centralized Critic Grouped Actor (CCGA) architecture that simultaneously achieves ParPS in local policy networks and accurate global Q-function computation. Experimental results in SMAC and MAMuJoCo environments demonstrate that OMDPG outperforms various state-of-the-art MARL baselines.
- Abstract(参考訳): 異種多エージェント強化学習(MARL)では、単調な改善を達成することが性能向上に重要な役割を担っている。
HAPPOアルゴリズムは、Noパラメータ共有(NoPS)を伴う独立学習を必要とする逐次更新スキームを導入することで実現可能なソリューションを提案する。
しかし、MARLは一般にエージェントグループ化に基づく部分的パラメータ共有(ParPS)を必要とし、高い協調性能を実現する。
本実験は,ParPSと逐次更新方式を直接組み合わせることで,基準線ドリフト問題を更新し,改善が得られないことを証明した。
単調な改善とParPSの対立を解決するために,最適行列決定性ポリシー勾配 (OMDPG) アルゴリズムを提案する。
まず、逐次計算した$Q_{\psi}^s(s,a_{1:i})$を、Q-函数から派生した$\phi_{\psi}^*(s,a_{1:i})$に置き換える。
これはMAADの単調な改善を維持しつつ、逐次ポリシー比の計算ではなく、最適な共同動作シーケンスによって競合を取り除く。
第2に、一般化Q批判(GQC)を批判関数として導入し、悲観的不確実性制約損失を用いて異なるQ値推定を最適化する。
これにより、OMQ計算に必要なQ値とアクター更新のための安定したベースラインが提供される。
最後に、ローカルポリシーネットワークにおけるParPSと正確なグローバルQ関数計算を同時に実現するCCGAアーキテクチャを実装した。
SMACおよびMAMuJoCo環境における実験結果から、OMDPGは様々な最先端のMARLベースラインより優れていることが示された。
関連論文リスト
- Policy Optimization and Multi-agent Reinforcement Learning for Mean-variance Team Stochastic Games [1.430310470698995]
長期平均分散チームゲーム(MV-TSG)について検討する。
MV-TSGの主な課題は2つある。第一に、分散計量は動的条件下では加法的でもマルコフ的でもない。
逐次更新方式を用いた平均分散マルチエージェントポリシー反復 (MV-MAPI) アルゴリズムを提案する。
定常点の特定の条件をナッシュ平衡とし、さらに厳密な局所最適条件を導出する。
論文 参考訳(メタデータ) (2025-03-28T16:21:05Z) - Monte Carlo Policy Gradient Method for Binary Optimization [3.742634130733923]
パラメータ化されたポリシー分布に従って二項解をサンプリングする新しい確率モデルを開発する。
離散空間におけるコヒーレント探索には、並列マルコフ・チェイン・モンテカルロ法(MCMC)を用いる。
政策勾配法を期待する定常点への収束性を確立する。
論文 参考訳(メタデータ) (2023-07-03T07:01:42Z) - Symmetric (Optimistic) Natural Policy Gradient for Multi-agent Learning
with Parameter Convergence [18.412945308419033]
マルチエージェント学習における自然政策勾配近似のグローバル収束について検討する。
本稿では,複数の標準的なマルチエージェント学習シナリオに対するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-23T18:27:04Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Planning and Learning with Adaptive Lookahead [74.39132848733847]
ポリシーイテレーション(PI)アルゴリズムは、欲求の一段階の改善と政策評価を交互に行う。
近年の文献では、複数段階のルックアヘッドポリシーの改善が、イテレーション毎の複雑さの増加を犠牲にして、よりコンバージェンス率の向上につながることが示されている。
本研究では,多段階の地平線を状態と推定値の関数として動的に適応する手法を初めて提案する。
論文 参考訳(メタデータ) (2022-01-28T20:26:55Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。