論文の概要: Mixed Q-Functionals: Advancing Value-Based Methods in Cooperative MARL
with Continuous Action Domains
- arxiv url: http://arxiv.org/abs/2402.07752v1
- Date: Mon, 12 Feb 2024 16:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:43:21.916503
- Title: Mixed Q-Functionals: Advancing Value-Based Methods in Cooperative MARL
with Continuous Action Domains
- Title(参考訳): 混合Q-Functionals:連続行動領域を持つ協調MARLにおける価値に基づく手法の改善
- Authors: Yasin Findik and S. Reza Ahmadzadeh
- Abstract要約: 本稿では,Q-Functionalsのアイデアに触発された新しいマルチエージェント値ベースアルゴリズム,Mixed Q-Functionals(MQF)を提案する。
本アルゴリズムは,アクション値の混合によりエージェント間の協調を促進する。
実験の結果、MQFはDeep Deterministic Policy Gradientの4つの変種より優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tackling multi-agent learning problems efficiently is a challenging task in
continuous action domains. While value-based algorithms excel in sample
efficiency when applied to discrete action domains, they are usually
inefficient when dealing with continuous actions. Policy-based algorithms, on
the other hand, attempt to address this challenge by leveraging critic networks
for guiding the learning process and stabilizing the gradient estimation. The
limitations in the estimation of true return and falling into local optima in
these methods result in inefficient and often sub-optimal policies. In this
paper, we diverge from the trend of further enhancing critic networks, and
focus on improving the effectiveness of value-based methods in multi-agent
continuous domains by concurrently evaluating numerous actions. We propose a
novel multi-agent value-based algorithm, Mixed Q-Functionals (MQF), inspired
from the idea of Q-Functionals, that enables agents to transform their states
into basis functions. Our algorithm fosters collaboration among agents by
mixing their action-values. We evaluate the efficacy of our algorithm in six
cooperative multi-agent scenarios. Our empirical findings reveal that MQF
outperforms four variants of Deep Deterministic Policy Gradient through rapid
action evaluation and increased sample efficiency.
- Abstract(参考訳): マルチエージェント学習問題を効率的に取り組むことは、継続的行動領域において難しい課題である。
値ベースのアルゴリズムは、離散アクションドメインに適用するとサンプル効率が優れているが、連続アクションを扱う場合、通常非効率である。
一方、政策に基づくアルゴリズムは、批判ネットワークを活用して学習プロセスの指導と勾配推定の安定化を図り、この問題に対処しようとする。
これらの手法における真の戻り値の推定と局所最適値への降下の制限は、非効率でしばしば準最適ポリシーをもたらす。
本稿では,批判ネットワークをさらに強化する傾向から脱却し,多数のアクションを同時評価することにより,マルチエージェント連続ドメインにおける価値ベース手法の有効性向上に焦点をあてる。
本稿では,q関数の概念に触発された混合q関数(mixed q-functionals,mqf)という,エージェントの基底関数への変換を可能にするアルゴリズムを提案する。
本アルゴリズムは,アクション値の混合によりエージェント間の協調を促進する。
本アルゴリズムの有効性を6つの協調マルチエージェントシナリオで評価した。
実験の結果,MQF は迅速な行動評価と試料効率の向上により,Deep Deterministic Policy Gradient の 4 つの変種を上回る性能を示した。
関連論文リスト
- Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-06-02T21:22:27Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Local Advantage Actor-Critic for Robust Multi-Agent Deep Reinforcement
Learning [19.519440854957633]
本稿では,Robost Local Advantage (ROLA) Actor-Criticと呼ばれるマルチエージェントポリシー勾配法を提案する。
ROLAにより、各エージェントはローカルな批評家として個々のアクション値関数を学習し、環境の非定常性を改善することができる。
複数の最先端マルチエージェントポリシー勾配アルゴリズムに対して,ROLAの堅牢性と有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T19:03:34Z) - Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent
Reinforcement Learning [10.64928897082273]
実験の結果,mSACは政策ベースアプローチのCOMAよりも有意に優れていた。
さらに、mSACは2c_vs_64zgやMMM2のような大きなアクションスペースタスクでかなり良い結果をもたらします。
論文 参考訳(メタデータ) (2021-04-14T07:02:40Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。