論文の概要: QSIM: Mitigating Overestimation in Multi-Agent Reinforcement Learning via Action Similarity Weighted Q-Learning
- arxiv url: http://arxiv.org/abs/2602.22786v1
- Date: Thu, 26 Feb 2026 09:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.618403
- Title: QSIM: Mitigating Overestimation in Multi-Agent Reinforcement Learning via Action Similarity Weighted Q-Learning
- Title(参考訳): QSIM:行動類似度重み付きQ-ラーニングによるマルチエージェント強化学習における過大評価の軽減
- Authors: Yuanjun Li, Bin Zhang, Hao Chen, Zhouyang Jiang, Dapeng Li, Zhiwei Xu,
- Abstract要約: 動作類似度を用いて時間差ターゲットを再構成する類似度重み付きQ-ラーニングフレームワークQSIMを提案する。
QSIMは過大評価を効果的に軽減し、学習安定性を向上させる。
- 参考スコア(独自算出の注目度): 12.090069655564017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value decomposition (VD) methods have achieved remarkable success in cooperative multi-agent reinforcement learning (MARL). However, their reliance on the max operator for temporal-difference (TD) target calculation leads to systematic Q-value overestimation. This issue is particularly severe in MARL due to the combinatorial explosion of the joint action space, which often results in unstable learning and suboptimal policies. To address this problem, we propose QSIM, a similarity weighted Q-learning framework that reconstructs the TD target using action similarity. Instead of using the greedy joint action directly, QSIM forms a similarity weighted expectation over a structured near-greedy joint action space. This formulation allows the target to integrate Q-values from diverse yet behaviorally related actions while assigning greater influence to those that are more similar to the greedy choice. By smoothing the target with structurally relevant alternatives, QSIM effectively mitigates overestimation and improves learning stability. Extensive experiments demonstrate that QSIM can be seamlessly integrated with various VD methods, consistently yielding superior performance and stability compared to the original algorithms. Furthermore, empirical analysis confirms that QSIM significantly mitigates the systematic value overestimation in MARL. Code is available at https://github.com/MaoMaoLYJ/pymarl-qsim.
- Abstract(参考訳): 値分解(VD)法は協調型マルチエージェント強化学習(MARL)において顕著な成功を収めた。
しかし、時間差分(TD)目標計算の最大演算子への依存は、体系的なQ値過大評価につながる。
この問題は、しばしば不安定な学習と準最適政策をもたらす共同行動空間の組合せ爆発により、MARLでは特に深刻である。
この問題に対処するために,動作類似性を用いてTDターゲットを再構成する類似度重み付きQ-ラーニングフレームワークQSIMを提案する。
グリーディの関節アクションを直接使用する代わりに、QSIMは構造された近接グリーディの関節アクション空間に対して類似した重み付き期待を形成する。
この定式化により、ターゲットは様々な行動に関連した行動からQ値を統合することができ、また欲求的な選択とより類似した行動により大きな影響を与えることができる。
ターゲットを構造的な代替品で滑らかにすることで、QSIMは過大評価を効果的に軽減し、学習安定性を向上させる。
大規模な実験により、QSIMは様々なVD手法とシームレスに統合可能であることが示され、元のアルゴリズムよりも優れた性能と安定性が得られた。
さらに、実証分析により、QSIMはMARLの体系的値過大評価を著しく軽減することを確認した。
コードはhttps://github.com/MaoMaoLYJ/pymarl-qsim.comで入手できる。
関連論文リスト
- Retaining Suboptimal Actions to Follow Shifting Optima in Multi-Agent Reinforcement Learning [7.725456898964979]
逐次的サブ値Q-ラーニング(S2Q)は、複数のサブ値関数を学習し、代替の高値アクションを保持する。
挑戦的なMARLベンチマークの実験は、S2Qが様々なMARLアルゴリズムを一貫して上回っていることを確認した。
論文 参考訳(メタデータ) (2026-02-19T04:07:55Z) - Partial Action Replacement: Tackling Distribution Shift in Offline MARL [11.861550409939818]
オフラインマルチエージェント強化学習(MARL)は、アウト・オブ・ディストリビューション・ジョイント・アクションを評価することの難しさによって著しく妨げられている。
我々は、OOD問題を緩和し、異なるPAR戦略を動的に重み付けするために、SPaCQL(Soft-Partial conservative Q-Learning)を開発した。
また,SPaCQLは不確実性インフォームドウェイトを用いた分散シフトに適応的に対応していることを示す。
論文 参考訳(メタデータ) (2025-11-10T20:56:58Z) - Improving monotonic optimization in heterogeneous multi-agent reinforcement learning with optimal marginal deterministic policy gradient [18.64288030584699]
異種多エージェント強化学習(MARL)
逐次計算された$Q_psi*(s,a_1:i)$を、Q関数から派生した$phi_psi*(s,a_1:i)$に客観的に置き換える。
一般化Q批判(GQC)を批判関数とし、悲観的不確実性制約損失を用いて異なるQ値推定を最適化する。
論文 参考訳(メタデータ) (2025-07-14T07:16:01Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。
MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。
複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文 参考訳(メタデータ) (2025-05-20T18:33:03Z) - POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning [17.644279061872442]
値関数分解法は、協調型マルチエージェント強化学習において一般的に用いられる。
本稿では, 潜在的に最適な関節動作を認識し, トレーニング中の損失により高い重みを割り当てるPOWQmix(Possally Optimal Joint Actions Weighted Qmix)アルゴリズムを提案する。
行列ゲーム,難易度の高い捕食者前処理,およびStarCraft II Multi-Agent Challenge環境における実験により,我々のアルゴリズムは最先端の値に基づくマルチエージェント強化学習法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-13T03:27:35Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。