論文の概要: Shapley Value Based Multi-Agent Reinforcement Learning: Theory, Method
and Its Application to Energy Network
- arxiv url: http://arxiv.org/abs/2402.15324v1
- Date: Fri, 23 Feb 2024 13:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:35:03.519726
- Title: Shapley Value Based Multi-Agent Reinforcement Learning: Theory, Method
and Its Application to Energy Network
- Title(参考訳): 共有価値に基づくマルチエージェント強化学習:理論,方法とエネルギーネットワークへの応用
- Authors: Jianhong Wang
- Abstract要約: 本論は,協調ゲーム理論によるマルチエージェント強化学習における信用割当の基礎を考察する。
まず,コラボレーティブゲーム理論において,コンベックスゲーム(convex game)と呼ばれるゲームモデルと,Shapley値と呼ばれるペイオフ分配スキームを拡張した。
Markov Shapley値に基づいて,SHAQ,SQDDPG,SPOという3つのマルチエージェント強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.50196317304035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning is an area of rapid advancement in
artificial intelligence and machine learning. One of the important questions to
be answered is how to conduct credit assignment in a multi-agent system. There
have been many schemes designed to conduct credit assignment by multi-agent
reinforcement learning algorithms. Although these credit assignment schemes
have been proved useful in improving the performance of multi-agent
reinforcement learning, most of them are designed heuristically without a
rigorous theoretic basis and therefore infeasible to understand how agents
cooperate. In this thesis, we aim at investigating the foundation of credit
assignment in multi-agent reinforcement learning via cooperative game theory.
We first extend a game model called convex game and a payoff distribution
scheme called Shapley value in cooperative game theory to Markov decision
process, named as Markov convex game and Markov Shapley value respectively. We
represent a global reward game as a Markov convex game under the grand
coalition. As a result, Markov Shapley value can be reasonably used as a credit
assignment scheme in the global reward game. Markov Shapley value possesses the
following virtues: (i) efficiency; (ii) identifiability of dummy agents; (iii)
reflecting the contribution and (iv) symmetry, which form the fair credit
assignment. Based on Markov Shapley value, we propose three multi-agent
reinforcement learning algorithms called SHAQ, SQDDPG and SMFPPO. Furthermore,
we extend Markov convex game to partial observability to deal with the
partially observable problems, named as partially observable Markov convex
game. In application, we evaluate SQDDPG and SMFPPO on the real-world problem
in energy networks.
- Abstract(参考訳): マルチエージェント強化学習は、人工知能と機械学習の急速な進歩の分野である。
答えるべき重要な質問の1つは、マルチエージェントシステムにおけるクレジット割り当ての方法である。
マルチエージェント強化学習アルゴリズムによる信用割当を行うためのスキームが数多く存在する。
これらの信用割当スキームは多エージェント強化学習の性能向上に有用であることが証明されているが、そのほとんどは厳密な理論的基礎を持たないヒューリスティックに設計されており、エージェントがどのように協力するかを理解することは不可能である。
本論では,協調ゲーム理論によるマルチエージェント強化学習における信用割当の基盤を検討することを目的とする。
まず,共同ゲーム理論において,convex game と呼ばれるゲームモデルと shapley value と呼ばれるペイオフ分布スキームをそれぞれ markov convex game と markov shapley value と名づけた markov decision process に拡張した。
我々は,大連立の下でのマルコフ凸ゲームとして,世界的な報奨ゲームを表現する。
その結果、グローバル報酬ゲームにおいて、Markov Shapley値がクレジット代入スキームとして合理的に使用できる。
マルコフ・シャプリの価値は以下の美徳を持っている。
(i)効率性
(ii)ダミーエージェントの識別性
(iii)貢献の反映及び
(iv)公平なクレジット割り当てを形成する対称性。
Markov Shapley値に基づいて,SHAQ,SQDDPG,SMFPPOという3つのマルチエージェント強化学習アルゴリズムを提案する。
さらに,markov convex game を部分可観測性に拡張し,部分可観測性問題(部分可観測性markov convex game)に対処した。
本研究では,エネルギーネットワークにおける実世界の問題に対するSQDDPGとSMFPPOの評価を行う。
関連論文リスト
- Tractable Equilibrium Computation in Markov Games through Risk Aversion [12.980882140751895]
リスク-逆量子応答平衡(RQE)は,すべての$n$プレーヤ行列と有限ホリゾンマルコフゲームで計算可能であることを示す。
RQEは下層のゲーム構造とは独立であり、エージェントのリスク回避度と有界有理性にのみ依存する。
論文 参考訳(メタデータ) (2024-06-20T09:53:56Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning [34.856522993714535]
本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。
提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
論文 参考訳(メタデータ) (2021-06-01T07:38:34Z) - SHAQ: Incorporating Shapley Value Theory into Q-Learning for Multi-Agent
Reinforcement Learning [40.882696266783505]
我々は連立ゲーム理論におけるシェープリーの価値をマルコフ凸ゲーム(MCG)に一般化する。
一般化されたShapley値には,最大大域値の正確な推定,(2)大域値の分解の公平性,(3)ダミーエージェントに敏感である,といった特徴がある。
提案した理論はシャープレーQ学習(SHAQ)と呼ばれる新しい学習アルゴリズムを生み出し、通常のQ学習の重要な利点を継承するが、それをMARLに拡張する。
論文 参考訳(メタデータ) (2021-05-31T14:50:52Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - A Sharp Analysis of Model-based Reinforcement Learning with Self-Play [49.88233710867315]
マルチエージェントマルコフゲームのためのモデルベースセルフプレイアルゴリズムのシャープな解析を行う。
我々は,2プレイヤーゼロサムマルコフゲームのための最適化ナッシュ値イテレーション(Nash-VI)を設計する。
我々はさらに、ゼロサムマルコフゲームに対する証明可能な効率的なタスク認識アルゴリズムの設計に我々の分析を適用した。
論文 参考訳(メタデータ) (2020-10-04T15:27:39Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。