論文の概要: Energy-based Surprise Minimization for Multi-Agent Value Factorization
- arxiv url: http://arxiv.org/abs/2009.09842v4
- Date: Mon, 18 Jan 2021 03:06:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 23:47:07.098716
- Title: Energy-based Surprise Minimization for Multi-Agent Value Factorization
- Title(参考訳): マルチエージェント価値分解のためのエネルギーベースサプライズ最小化
- Authors: Karush Suri, Xiao Qi Shi, Konstantinos Plataniotis, Yuri Lawryshyn
- Abstract要約: エージェント間のエネルギー利用を最小化するアルゴリズムであるEnergy-based MIXer(Emix)を導入する。
EMIXは、複数のエージェントにまたがる新しいサプライズ最小化技術を導入しています。
本研究は,マルチエージェント強化学習におけるエネルギーベーススキームの必要性と過大評価バイアスの除去の必要性を明らかにするものである。
- 参考スコア(独自算出の注目度): 2.341806147715478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Agent Reinforcement Learning (MARL) has demonstrated significant
success in training decentralised policies in a centralised manner by making
use of value factorization methods. However, addressing surprise across
spurious states and approximation bias remain open problems for multi-agent
settings. Towards this goal, we introduce the Energy-based MIXer (EMIX), an
algorithm which minimizes surprise utilizing the energy across agents. Our
contributions are threefold; (1) EMIX introduces a novel surprise minimization
technique across multiple agents in the case of multi-agent
partially-observable settings. (2) EMIX highlights a practical use of energy
functions in MARL with theoretical guarantees and experiment validations of the
energy operator. Lastly, (3) EMIX extends Maxmin Q-learning for addressing
overestimation bias across agents in MARL. In a study of challenging StarCraft
II micromanagement scenarios, EMIX demonstrates consistent stable performance
for multiagent surprise minimization. Moreover, our ablation study highlights
the necessity of the energy-based scheme and the need for elimination of
overestimation bias in MARL. Our implementation of EMIX can be found at
karush17.github.io/emix-web/.
- Abstract(参考訳): MARL(Multi-Agent Reinforcement Learning)は、分散政策を集中的に訓練する上で、価値分解法を用いて大きな成功を収めている。
しかしながら、スプリアス状態と近似バイアスにまたがる驚きに対処することは、マルチエージェントの設定では未解決の問題のままである。
この目標に向けて,エージェント間のエネルギー利用を最小化するアルゴリズムであるEMIX(Energy-based MIXer)を導入する。
1) emixは,マルチエージェントの部分観測可能な設定の場合,複数のエージェントにまたがる新たなサプライズ最小化手法を導入している。
2) emix はエネルギー作用素の理論的保証と実験検証を伴う marl におけるエネルギー関数の実用化を強調する。
最後に、(3)EMIXはMARLのエージェント間の過大評価バイアスに対処するためにMaxmin Q-learningを拡張する。
StarCraft IIのマイクロマネジメントシナリオを挑戦する研究において、EMIXはマルチエージェントサプライズ最小化のための一貫した安定したパフォーマンスを示す。
さらに, エネルギーベース方式の必要性と, MARLにおける過大評価バイアスの除去の必要性について検討した。
EMIXの実装はkarush17.github.io/emix-web/で確認できます。
関連論文リスト
- PowMix: A Versatile Regularizer for Multimodal Sentiment Analysis [71.8946280170493]
本稿では,単相混合型正規化手法の強みを生かした汎用な埋め込み空間正規化器であるPowMixを紹介する。
PowMixはマルチモーダルアーキテクチャの融合段階の前に統合され、テキストとテキストを混合するなどのモダル内混合を容易にし、レギュレータとして機能する。
論文 参考訳(メタデータ) (2023-12-19T17:01:58Z) - AIIR-MIX: Multi-Agent Reinforcement Learning Meets Attention Individual
Intrinsic Reward Mixing Network [2.057898896648108]
協調型マルチエージェント強化学習(MARL)において、各エージェントの貢献を減らし、それに対応する報酬を割り当てることは重要な問題である。
従来の研究では、本質的な報酬関数を設計することで問題を解決しようとするが、本質的な報酬は単に要約による環境報酬と組み合わせられる。
本稿では,MARLにおける個別固有逆混合ネットワーク(AIIR-mix)を提案する。
論文 参考訳(メタデータ) (2023-02-19T10:25:25Z) - Value Function Factorisation with Hypergraph Convolution for Cooperative
Multi-agent Reinforcement Learning [32.768661516953344]
本稿では,ハイパーグラフ畳み込みと値分解を組み合わせた手法を提案する。
アクション値を信号として扱うことで、HGCN-Mixは、自己学習ハイパーグラフを通じて、これらの信号間の関係を探究することを目指している。
実験結果から,HGCN-MixはStarCraft II Multi-agent Challenge (SMAC)ベンチマークにおいて,最先端技術と一致するか,あるいは超えていることがわかった。
論文 参考訳(メタデータ) (2021-12-09T08:40:38Z) - MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning [15.972363414919279]
MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-22T10:21:00Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - Risk-Aware Energy Scheduling for Edge Computing with Microgrid: A
Multi-Agent Deep Reinforcement Learning Approach [82.6692222294594]
マイクログリッドを用いたMECネットワークにおけるリスク対応エネルギースケジューリング問題について検討する。
ニューラルネットワークを用いたマルチエージェントディープ強化学習(MADRL)に基づくアドバンテージアクター・クリティック(A3C)アルゴリズムを適用し,その解を導出する。
論文 参考訳(メタデータ) (2020-02-21T02:14:38Z) - Multi-Agent Meta-Reinforcement Learning for Self-Powered and Sustainable
Edge Computing Systems [87.4519172058185]
エッジコンピューティング機能を有するセルフパワー無線ネットワークの効率的なエネルギー分配機構について検討した。
定式化問題を解くために,新しいマルチエージェントメタ強化学習(MAMRL)フレームワークを提案する。
実験の結果、提案されたMAMRLモデルは、再生不可能なエネルギー使用量を最大11%削減し、エネルギーコストを22.4%削減できることが示された。
論文 参考訳(メタデータ) (2020-02-20T04:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。