論文の概要: The StarCraft Multi-Agent Challenges+ : Learning of Multi-Stage Tasks
and Environmental Factors without Precise Reward Functions
- arxiv url: http://arxiv.org/abs/2207.02007v2
- Date: Thu, 7 Jul 2022 08:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 10:57:50.237645
- Title: The StarCraft Multi-Agent Challenges+ : Learning of Multi-Stage Tasks
and Environmental Factors without Precise Reward Functions
- Title(参考訳): starcraft multi-agent challenge+ : 報酬機能のない多段階課題と環境因子の学習
- Authors: Mingyu Kim, Jihwan Oh, Yongsik Lee, Joonkee Kim, Seonghwan Kim, Song
Chong and Se-Young Yun
- Abstract要約: 本稿では,StarCraft Multi-Agent Challenges+という新しいベンチマークを提案する。
この課題は、マイクロコントロールだけでなく、暗黙のマルチステージタスクや環境要因を効率的に学習するMARLアルゴリズムの探索能力に関心がある。
SMAC+ の MARL アルゴリズムについて検討し,近年の手法は従来の課題とよく似ているが,攻撃的シナリオでは誤動作する。
- 参考スコア(独自算出の注目度): 14.399479538886064
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we propose a novel benchmark called the StarCraft Multi-Agent
Challenges+, where agents learn to perform multi-stage tasks and to use
environmental factors without precise reward functions. The previous challenges
(SMAC) recognized as a standard benchmark of Multi-Agent Reinforcement Learning
are mainly concerned with ensuring that all agents cooperatively eliminate
approaching adversaries only through fine manipulation with obvious reward
functions. This challenge, on the other hand, is interested in the exploration
capability of MARL algorithms to efficiently learn implicit multi-stage tasks
and environmental factors as well as micro-control. This study covers both
offensive and defensive scenarios. In the offensive scenarios, agents must
learn to first find opponents and then eliminate them. The defensive scenarios
require agents to use topographic features. For example, agents need to
position themselves behind protective structures to make it harder for enemies
to attack. We investigate MARL algorithms under SMAC+ and observe that recent
approaches work well in similar settings to the previous challenges, but
misbehave in offensive scenarios. Additionally, we observe that an enhanced
exploration approach has a positive effect on performance but is not able to
completely solve all scenarios. This study proposes new directions for future
research.
- Abstract(参考訳): 本稿では,スタークラフト・マルチエージェント・チャレンジ(starcraft multi-agent challenge+)と呼ばれる新しいベンチマークを提案する。
従来のマルチエージェント強化学習の標準ベンチマークとして認識されていた課題(SMAC)は、すべてのエージェントが、明らかな報酬関数による微細な操作によってのみ、接近する敵を協調的に排除することを目的としている。
一方,この課題は,マイクロコントロールだけでなく,暗黙的なマルチステージタスクや環境要因を効率的に学習するMARLアルゴリズムの探索能力に関心がある。
本研究は攻撃的シナリオと防御的シナリオの両方をカバーする。
攻撃的なシナリオでは、エージェントは最初に相手を見つけ、それを取り除かなければならない。
防御シナリオは、エージェントが地形的特徴を使用する必要がある。
例えば、エージェントは敵の攻撃を困難にするため、防御構造の後ろに自分自身を置く必要がある。
SMAC+ の MARL アルゴリズムについて検討し,近年の手法は従来の課題とよく似ているが,攻撃的シナリオでは誤動作する。
さらに,改良された探索手法は性能に肯定的な影響を与えるが,すべてのシナリオを完全に解決することはできない。
本研究は今後の研究に向けた新しい方向性を提案する。
関連論文リスト
- MESA: Cooperative Meta-Exploration in Multi-Agent Learning through Exploiting State-Action Space Structure [37.56309011441144]
本稿では,協調型マルチエージェント学習のためのメタ探索手法であるMESAを紹介する。
エージェントはまず、訓練タスクからエージェントの高度に反転する状態-行動サブスペースを識別し、次にサブスペースを"探索する"ための多様な探索ポリシーのセットを学ぶことで探索を学ぶ。
実験の結果,多エージェント粒子環境とマルチエージェント MuJoCo 環境におけるスパース・リワードタスクにおいて,MESA は学習された探索ポリシにより,大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2024-05-01T23:19:48Z) - Imagine, Initialize, and Explore: An Effective Exploration Method in
Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。
我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。
臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文 参考訳(メタデータ) (2024-02-28T01:45:01Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - AutoDIME: Automatic Design of Interesting Multi-Agent Environments [3.1546318469750205]
マルチエージェント設定に適用可能な予測問題から得られた本質的な教師報酬のセットについて検討する。
本質的に見なされた報酬のうち、価値の相違はタスク間で最も一貫性があることがわかった。
この結果から,教師の報酬,特に価値の相違は,単一環境とマルチエージェント環境の両方を自動生成する上で有望なアプローチであることが示唆された。
論文 参考訳(メタデータ) (2022-03-04T18:25:33Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Exploration and Incentives in Reinforcement Learning [107.42240386544633]
各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。
エージェントはポリシーの選択を制御するが、アルゴリズムは推奨事項のみを発行できる。
MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。
論文 参考訳(メタデータ) (2021-02-28T00:15:53Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。