論文の概要: Dual Ensembled Multiagent Q-Learning with Hypernet Regularizer
- arxiv url: http://arxiv.org/abs/2502.02018v1
- Date: Tue, 04 Feb 2025 05:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:53:19.658816
- Title: Dual Ensembled Multiagent Q-Learning with Hypernet Regularizer
- Title(参考訳): ハイパーネット正規化器を用いたデュアルアンサンブルマルチエージェントQ-Learning
- Authors: Yaodong Yang, Guangyong Chen, Hongyao Tang, Furui Liu, Danruo Deng, Pheng Ann Heng,
- Abstract要約: マルチエージェント設定における過大評価は、比較的ほとんど注目されていない。
本稿では,超ネットワーク重みとバイアスに関する新しいハイパーネット正規化器を提案し,オンライングローバルQ-ネットワークの最適化を制約し,過大な推定の蓄積を防止する。
- 参考スコア(独自算出の注目度): 62.01554688056335
- License:
- Abstract: Overestimation in single-agent reinforcement learning has been extensively studied. In contrast, overestimation in the multiagent setting has received comparatively little attention although it increases with the number of agents and leads to severe learning instability. Previous works concentrate on reducing overestimation in the estimation process of target Q-value. They ignore the follow-up optimization process of online Q-network, thus making it hard to fully address the complex multiagent overestimation problem. To solve this challenge, in this study, we first establish an iterative estimation-optimization analysis framework for multiagent value-mixing Q-learning. Our analysis reveals that multiagent overestimation not only comes from the computation of target Q-value but also accumulates in the online Q-network's optimization. Motivated by it, we propose the Dual Ensembled Multiagent Q-Learning with Hypernet Regularizer algorithm to tackle multiagent overestimation from two aspects. First, we extend the random ensemble technique into the estimation of target individual and global Q-values to derive a lower update target. Second, we propose a novel hypernet regularizer on hypernetwork weights and biases to constrain the optimization of online global Q-network to prevent overestimation accumulation. Extensive experiments in MPE and SMAC show that the proposed method successfully addresses overestimation across various tasks.
- Abstract(参考訳): 単エージェント強化学習における過大評価は広く研究されている。
対照的に、マルチエージェント設定における過大評価は、エージェント数の増加とともに増加し、深刻な学習不安定をもたらすが、比較的注意を向けられていない。
従来の研究は、目標Q値の推定過程における過大評価を減らすことに集中していた。
オンラインQ-ネットワークのフォローアップ最適化プロセスは無視されるため、複雑なマルチエージェント過大評価問題を完全に解決することは困難である。
この課題を解決するために,我々はまず,マルチエージェント値混合Q-ラーニングのための反復的推定最適化分析フレームワークを構築した。
解析の結果,マルチエージェント過大評価は対象Q-値の計算から得られるだけでなく,オンラインQ-ネットワークの最適化に蓄積されることがわかった。
そこで本研究では,ハイパーネット正規化アルゴリズムを用いたDual Ensembled Multiagent Q-Learningを提案する。
まず,ランダムアンサンブル手法を対象個人および大域的Q値の推定に拡張し,より低い更新目標を導出する。
第2に、過大評価の蓄積を防ぐために、オンライングローバルQ-ネットワークの最適化を制限するために、ハイパーネットワーク重みとバイアスに関する新しいハイパーネット正規化器を提案する。
MPEとSMACの大規模な実験により、提案手法は様々なタスクにおける過大評価にうまく対処できることを示した。
関連論文リスト
- Multi-agent Reinforcement Learning with Deep Networks for Diverse Q-Vectors [3.9801926395657325]
本稿では,Max,Nash,Maximinの戦略を用いて,様々なQベクトルを学習できるディープQ-networks(DQN)アルゴリズムを提案する。
このアプローチの有効性は、デュアルロボットアームが協力して鍋を持ち上げる環境で実証される。
論文 参考訳(メタデータ) (2024-06-12T03:30:10Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z) - Multi-Agent Determinantal Q-Learning [39.79718674655209]
マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。
分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
論文 参考訳(メタデータ) (2020-06-02T09:32:48Z) - Towards Understanding Cooperative Multi-Agent Q-Learning with Value
Factorization [28.89692989420673]
因子化多エージェントQ-ラーニングを解析するための多エージェント適合Q-イテレーションフレームワークを形式化する。
さらなる分析により、オンライン学習やよりリッチなジョイントバリュー関数クラスは、その局所的あるいは大域的収束特性を改善することができる。
論文 参考訳(メタデータ) (2020-05-31T19:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。