論文の概要: Episodic Multi-agent Reinforcement Learning with Curiosity-Driven
Exploration
- arxiv url: http://arxiv.org/abs/2111.11032v1
- Date: Mon, 22 Nov 2021 07:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 14:08:24.710809
- Title: Episodic Multi-agent Reinforcement Learning with Curiosity-Driven
Exploration
- Title(参考訳): キュリオシティ駆動探索によるエピソディックマルチエージェント強化学習
- Authors: Lulu Zheng, Jiarui Chen, Jianhao Wang, Jiamin He, Yujing Hu, Yingfeng
Chen, Changjie Fan, Yang Gao, Chongjie Zhang
- Abstract要約: EMCと呼ばれる好奇心を駆使した新しい多エージェント強化学習について紹介する。
我々は,個別Q値の予測誤差を協調探索の本質的な報奨として使用し,エピソードメモリを用いて探索的な情報的経験を利用して政策訓練を促進する。
- 参考スコア(独自算出の注目度): 40.87053312548429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient exploration in deep cooperative multi-agent reinforcement learning
(MARL) still remains challenging in complex coordination problems. In this
paper, we introduce a novel Episodic Multi-agent reinforcement learning with
Curiosity-driven exploration, called EMC. We leverage an insight of popular
factorized MARL algorithms that the "induced" individual Q-values, i.e., the
individual utility functions used for local execution, are the embeddings of
local action-observation histories, and can capture the interaction between
agents due to reward backpropagation during centralized training. Therefore, we
use prediction errors of individual Q-values as intrinsic rewards for
coordinated exploration and utilize episodic memory to exploit explored
informative experience to boost policy training. As the dynamics of an agent's
individual Q-value function captures the novelty of states and the influence
from other agents, our intrinsic reward can induce coordinated exploration to
new or promising states. We illustrate the advantages of our method by didactic
examples, and demonstrate its significant outperformance over state-of-the-art
MARL baselines on challenging tasks in the StarCraft II micromanagement
benchmark.
- Abstract(参考訳): 深層協調型マルチエージェント強化学習(marl)における効率的な探索は、複雑な協調問題において依然として困難である。
本稿では,キュリオシティによる探索による多エージェント強化学習(EMC)について紹介する。
我々は、局所的な実行に使用される個別のユーティリティ関数である「誘導的」個別Q値が局所的な行動観測履歴の埋め込みであり、集中トレーニング中の報酬バックプロパゲーションによるエージェント間の相互作用を捉えることができるという、一般的な因子化MARLアルゴリズムの洞察を活用する。
そこで我々は,個別Q値の予測誤差を協調探索の本質的な報奨として使用し,エピソードメモリを用いて,探索的な情報的経験を活用して政策訓練を促進する。
エージェントの個々のQ値関数のダイナミクスは、状態の新規性と他のエージェントの影響を捉えるので、本質的な報酬は、新しい状態や有望な状態への協調的な探索を誘導することができる。
本手法の利点をディダクティックな例で示し,starcraft ii のマイクロマネジメントベンチマークにおいて,最先端の marl ベースラインよりも優れた性能を示す。
関連論文リスト
- Imagine, Initialize, and Explore: An Effective Exploration Method in
Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。
我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。
臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文 参考訳(メタデータ) (2024-02-28T01:45:01Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Strangeness-driven Exploration in Multi-Agent Reinforcement Learning [0.0]
我々は,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。
探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる遷移の影響を受けない。
論文 参考訳(メタデータ) (2022-12-27T11:08:49Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - Curiosity-Driven Multi-Agent Exploration with Mixed Objectives [7.247148291603988]
単エージェント強化学習におけるスパース報酬問題を軽減するために、本質的な報酬がますます利用されてきた。
好奇心駆動探索(英: Curiosity-driven exploration)は、エージェントの好奇心モジュールの予測誤差としてこの新規性を定量化する、単純で効率的なアプローチである。
しかし, この好奇心を駆使して, スパース報酬協調型マルチエージェント環境における探索をガイドする手法は, 常に改善に繋がらないことを示す。
論文 参考訳(メタデータ) (2022-10-29T02:45:38Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。