論文の概要: SHAQ: Incorporating Shapley Value Theory into Q-Learning for Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.15013v1
- Date: Mon, 31 May 2021 14:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:32:28.854686
- Title: SHAQ: Incorporating Shapley Value Theory into Q-Learning for Multi-Agent
Reinforcement Learning
- Title(参考訳): SHAQ:マルチエージェント強化学習のためのQラーニングへの共有価値理論の導入
- Authors: Jianhong Wang, Jinxin Wang, Yuan Zhang, Yunjie Gu, Tae-Kyun Kim
- Abstract要約: 我々は連立ゲーム理論におけるシェープリーの価値をマルコフ凸ゲーム(MCG)に一般化する。
一般化されたShapley値には,最大大域値の正確な推定,(2)大域値の分解の公平性,(3)ダミーエージェントに敏感である,といった特徴がある。
提案した理論はシャープレーQ学習(SHAQ)と呼ばれる新しい学習アルゴリズムを生み出し、通常のQ学習の重要な利点を継承するが、それをMARLに拡張する。
- 参考スコア(独自算出の注目度): 40.882696266783505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value factorisation proves to be a very useful technique in multi-agent
reinforcement learning (MARL), but the underlying mechanism is not yet fully
understood. This paper explores a theoretic basis for value factorisation. We
generalise the Shapley value in the coalitional game theory to a Markov convex
game (MCG) and use it to guide value factorisation in MARL. We show that the
generalised Shapley value possesses several features such as (1) accurate
estimation of the maximum global value, (2) fairness in the factorisation of
the global value, and (3) being sensitive to dummy agents. The proposed theory
yields a new learning algorithm called Sharpley Q-learning (SHAQ), which
inherits the important merits of ordinary Q-learning but extends it to MARL. In
comparison with prior-arts, SHAQ has a much weaker assumption (MCG) that is
more compatible with real-world problems, but has superior explainability and
performance in many cases. We demonstrated SHAQ and verified the theoretic
claims on Predator-Prey and StarCraft Multi-Agent Challenge (SMAC).
- Abstract(参考訳): 値分解はマルチエージェント強化学習(MARL)において非常に有用な手法であることが証明されているが、基礎となるメカニズムはまだ完全には理解されていない。
本稿では,価値因子化の理論的基礎について検討する。
我々は連立ゲーム理論におけるShapley値をマルコフ凸ゲーム(MCG)に一般化し、それをMARLにおける値分解のガイドに利用する。
一般化したシャプレー値には,(1)最大大域値の正確な推定,(2)大域値の因子化における公平性,(3)ダミーエージェントに対する敏感性など,いくつかの特徴がある。
提案した理論はシャープレーQ学習(SHAQ)と呼ばれる新しい学習アルゴリズムを生み出し、通常のQ学習の重要な利点を継承するが、それをMARLに拡張する。
先行技術と比較して、SHAQはより弱い仮定(MCG)を持ち、現実の問題とより互換性があるが、多くの場合、説明可能性や性能が優れている。
我々はSHAQを実証し,Predator-Prey と StarCraft Multi-Agent Challenge (SMAC) の理論的主張を検証する。
関連論文リスト
- Balancing the Scales: A Theoretical and Algorithmic Framework for Learning from Imbalanced Data [35.03888101803088]
本稿では,不均衡な分類における一般化を解析するための新しい理論的枠組みを提案する。
本稿では,2値設定と複数値設定の両方に新しいクラス不均衡なマージン損失関数を提案し,その強い$H$一貫性を証明し,それに対応する学習保証を導出する。
我々は、信頼率を組み込んだ新しい一般学習アルゴリズムIMMAXを考案し、様々な仮説集合に適用する。
論文 参考訳(メタデータ) (2025-02-14T18:57:16Z) - Dual Ensembled Multiagent Q-Learning with Hypernet Regularizer [62.01554688056335]
マルチエージェント設定における過大評価は、比較的ほとんど注目されていない。
本稿では,超ネットワーク重みとバイアスに関する新しいハイパーネット正規化器を提案し,オンライングローバルQ-ネットワークの最適化を制約し,過大な推定の蓄積を防止する。
論文 参考訳(メタデータ) (2025-02-04T05:14:58Z) - Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding [58.364933651703524]
注目クエリの特定の領域において、集中した巨大な値が一貫して現れることを示す。
これらの膨大な価値は文脈知識の解釈において重要な役割を担っている。
大量の値の出現を辿り、そのような濃度は回転位置によって引き起こされる。
論文 参考訳(メタデータ) (2025-02-03T17:47:03Z) - Shapley Value Based Multi-Agent Reinforcement Learning: Theory, Method
and Its Application to Energy Network [7.50196317304035]
本論は,協調ゲーム理論によるマルチエージェント強化学習における信用割当の基礎を考察する。
まず,コラボレーティブゲーム理論において,コンベックスゲーム(convex game)と呼ばれるゲームモデルと,Shapley値と呼ばれるペイオフ分配スキームを拡張した。
Markov Shapley値に基づいて,SHAQ,SQDDPG,SPOという3つのマルチエージェント強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T13:43:15Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-01T08:07:16Z) - MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent
Reinforcement Learning [63.46052494151171]
テキストマルチエージェント代替Q-ラーニング(MA2QL)を提案し、エージェントが順番にQ-ラーニングによってQ-関数を更新する。
各エージェントが各ターンで$varepsilon$-convergenceを保証した場合、それらの合同ポリシーはナッシュ均衡に収束する。
結果は、MA2QLが最小限の変更にもかかわらず、MA2QLの有効性を検証するIQLを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-09-17T04:54:32Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Towards Understanding Cooperative Multi-Agent Q-Learning with Value
Factorization [28.89692989420673]
因子化多エージェントQ-ラーニングを解析するための多エージェント適合Q-イテレーションフレームワークを形式化する。
さらなる分析により、オンライン学習やよりリッチなジョイントバリュー関数クラスは、その局所的あるいは大域的収束特性を改善することができる。
論文 参考訳(メタデータ) (2020-05-31T19:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。