論文の概要: UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2010.02974v3
- Date: Thu, 10 Jun 2021 17:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:12:20.861949
- Title: UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning
- Title(参考訳): UneVEn: マルチエージェント強化学習のためのユニバーサルバリュー探索
- Authors: Tarun Gupta, Anuj Mahajan, Bei Peng, Wendelin B\"ohmer, Shimon
Whiteson
- Abstract要約: 我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
- 参考スコア(独自算出の注目度): 53.73686229912562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: VDN and QMIX are two popular value-based algorithms for cooperative MARL that
learn a centralized action value function as a monotonic mixing of per-agent
utilities. While this enables easy decentralization of the learned policy, the
restricted joint action value function can prevent them from solving tasks that
require significant coordination between agents at a given timestep. We show
that this problem can be overcome by improving the joint exploration of all
agents during training. Specifically, we propose a novel MARL approach called
Universal Value Exploration (UneVEn) that learns a set of related tasks
simultaneously with a linear decomposition of universal successor features.
With the policies of already solved related tasks, the joint exploration
process of all agents can be improved to help them achieve better coordination.
Empirical results on a set of exploration games, challenging cooperative
predator-prey tasks requiring significant coordination among agents, and
StarCraft II micromanagement benchmarks show that UneVEn can solve tasks where
other state-of-the-art MARL methods fail.
- Abstract(参考訳): VDNとQMIXは協調的なMARLのための2つの一般的な値ベースアルゴリズムであり、エージェントごとのユーティリティの単調混合として集中的なアクション値関数を学習する。
これにより、学習されたポリシーの分散化が容易になるが、制限された共同アクション値関数は、与えられた時間ステップでエージェント間の重要な協調を必要とするタスクを解決することを防ぐことができる。
トレーニング中の全てのエージェントの共同探索を改善することで,この問題を克服できることを示す。
具体的には,Universal Value Exploration(UneVEn)と呼ばれる新しいMARL手法を提案する。
既に解決された関連するタスクのポリシーにより、すべてのエージェントの合同探索プロセスを改善して、より優れたコーディネーションを実現することができる。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
関連論文リスト
- Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Adaptive Value Decomposition with Greedy Marginal Contribution
Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。
単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。
非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T07:23:59Z) - Self-Motivated Multi-Agent Exploration [38.55811936029999]
協調型マルチエージェント強化学習(CMARL)では,エージェントが自己探索とチームコラボレーションのバランスをとることが重要である。
近年の研究は主にエージェントの協調探索に焦点が当てられ、州空間の指数的に成長した探索をもたらした。
我々は,自己探索とチーム協力のトレードオフを適応的に見つけることで,チームのタスクの成功を目指す,自己運動型マルチエージェント探索(SMMAE)を提案する。
論文 参考訳(メタデータ) (2023-01-05T14:42:39Z) - CURO: Curriculum Learning for Relative Overgeneralization [6.573807158449973]
相対的オーバージェネリゼーション(Relative Over generalization, RO)は、協調的なマルチエージェントタスクで発生する病理である。
相対オーバージェネリゼーション(CURO)のためのカリキュラム学習という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-06T03:41:08Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。