論文の概要: AIIR-MIX: Multi-Agent Reinforcement Learning Meets Attention Individual
Intrinsic Reward Mixing Network
- arxiv url: http://arxiv.org/abs/2302.09531v1
- Date: Sun, 19 Feb 2023 10:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 18:00:13.579077
- Title: AIIR-MIX: Multi-Agent Reinforcement Learning Meets Attention Individual
Intrinsic Reward Mixing Network
- Title(参考訳): AIIR-MIX: 個人固有のリワード混合ネットワークを意識するマルチエージェント強化学習
- Authors: Wei Li, Weiyan Liu, Shitong Shao, and Shiyi Huang
- Abstract要約: 協調型マルチエージェント強化学習(MARL)において、各エージェントの貢献を減らし、それに対応する報酬を割り当てることは重要な問題である。
従来の研究では、本質的な報酬関数を設計することで問題を解決しようとするが、本質的な報酬は単に要約による環境報酬と組み合わせられる。
本稿では,MARLにおける個別固有逆混合ネットワーク(AIIR-mix)を提案する。
- 参考スコア(独自算出の注目度): 2.057898896648108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deducing the contribution of each agent and assigning the corresponding
reward to them is a crucial problem in cooperative Multi-Agent Reinforcement
Learning (MARL). Previous studies try to resolve the issue through designing an
intrinsic reward function, but the intrinsic reward is simply combined with the
environment reward by summation in these studies, which makes the performance
of their MARL framework unsatisfactory. We propose a novel method named
Attention Individual Intrinsic Reward Mixing Network (AIIR-MIX) in MARL, and
the contributions of AIIR-MIX are listed as follows:(a) we construct a novel
intrinsic reward network based on the attention mechanism to make teamwork more
effective. (b) we propose a Mixing network that is able to combine intrinsic
and extrinsic rewards non-linearly and dynamically in response to changing
conditions of the environment. We compare AIIR-MIX with many State-Of-The-Art
(SOTA) MARL methods on battle games in StarCraft II. And the results
demonstrate that AIIR-MIX performs admirably and can defeat the current
advanced methods on average test win rate. To validate the effectiveness of
AIIR-MIX, we conduct additional ablation studies. The results show that
AIIR-MIX can dynamically assign each agent a real-time intrinsic reward in
accordance with their actual contribution.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)では,各エージェントの貢献を減らし,それに対応する報酬を付与することが重要である。
これまでの研究では、本質的な報酬関数を設計することで問題を解決しようとするが、本質的な報酬は、これらの研究の要約による環境報酬と単純に組み合わせるだけで、marlフレームワークの性能は満足できない。
我々は,MARLにおけるAtention individual Intrinsic Reward Mixing Network (AIIR-MIX) という新しい手法を提案し,AIIR-MIXの貢献を以下に示す。
a) チームワークをより効果的にするための注意機構に基づく,新たな本質的報酬ネットワークを構築する。
b) 環境条件の変化に応じて, 内因性と外因性報酬を非線形かつ動的に組み合わせることのできる混合ネットワークを提案する。
我々はstarcraft iiのバトルゲームにおけるaiir-mixと最先端(sota)marl法を比較した。
その結果,AIIR-MIXは高い性能を示し,平均試験勝利率で現在の先進的な手法を破ることができることがわかった。
AIIR-MIXの有効性を検証するため,追加のアブレーション研究を行った。
その結果,AIIR-MIXは各エージェントに対して,実際の貢献に応じてリアルタイムな固有報酬を動的に割り当てることができることがわかった。
関連論文リスト
- Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。
本稿では,両経路の分岐点に位置する新しい手法を提案する。
我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。
より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文 参考訳(メタデータ) (2022-12-09T14:29:57Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Revisiting QMIX: Discriminative Credit Assignment by Gradient Entropy
Regularization [126.87359177547455]
協力的なマルチエージェントシステムでは、エージェントは共同で行動し、個々の報酬ではなくチーム報酬を受け取る。
個々の報酬信号がない場合は、通常、異なるエージェントの貢献を識別するためにクレジット代入機構が導入される。
クレジット割当測定の新しい視点を提案し,QMIXがエージェントへのクレジット割当において限定的な差別性に悩まされていることを実証的に示す。
論文 参考訳(メタデータ) (2022-02-09T12:37:55Z) - MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning [15.972363414919279]
MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-22T10:21:00Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Balancing Rational and Other-Regarding Preferences in
Cooperative-Competitive Environments [4.705291741591329]
混合環境は利己的で社会的利益の衝突で悪名高い。
個人と社会的インセンティブのバランスをとるBAROCCOを提案します。
メタアルゴリズムは、Qラーニングとアクタークリティカルの両方のフレームワークと互換性があります。
論文 参考訳(メタデータ) (2021-02-24T14:35:32Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Energy-based Surprise Minimization for Multi-Agent Value Factorization [2.341806147715478]
エージェント間のエネルギー利用を最小化するアルゴリズムであるEnergy-based MIXer(Emix)を導入する。
EMIXは、複数のエージェントにまたがる新しいサプライズ最小化技術を導入しています。
本研究は,マルチエージェント強化学習におけるエネルギーベーススキームの必要性と過大評価バイアスの除去の必要性を明らかにするものである。
論文 参考訳(メタデータ) (2020-09-16T19:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。