論文の概要: LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.02561v1
- Date: Thu, 5 May 2022 10:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 15:20:26.618162
- Title: LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning
- Title(参考訳): LDSA:複数エージェント強化学習における動的サブタスク割り当ての学習
- Authors: Mingyu Yang, Jian Zhao, Xunhan Hu, Wengang Zhou, Houqiang Li
- Abstract要約: 協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
- 参考スコア(独自算出の注目度): 122.47938710284784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative multi-agent reinforcement learning (MARL) has made prominent
progress in recent years. For training efficiency and scalability, most of the
MARL algorithms make all agents share the same policy or value network.
However, many complex multi-agent tasks require agents with a variety of
specific abilities to handle different subtasks. Sharing parameters
indiscriminately may lead to similar behaviors across all agents, which will
limit the exploration efficiency and be detrimental to the final performance.
To balance the training complexity and the diversity of agents' behaviors, we
propose a novel framework for learning dynamic subtask assignment (LDSA) in
cooperative MARL. Specifically, we first introduce a subtask encoder that
constructs a vector representation for each subtask according to its identity.
To reasonably assign agents to different subtasks, we propose an ability-based
subtask selection strategy, which can dynamically group agents with similar
abilities into the same subtask. Then, we condition the subtask policy on its
representation and agents dealing with the same subtask share their experiences
to train the subtask policy. We further introduce two regularizers to increase
the representation difference between subtasks and avoid agents changing
subtasks frequently to stabilize training, respectively. Empirical results show
that LDSA learns reasonable and effective subtask assignment for better
collaboration and significantly improves the learning performance on the
challenging StarCraft II micromanagement benchmark.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)は近年顕著な進歩を遂げている。
効率性とスケーラビリティをトレーニングするために、ほとんどのMARLアルゴリズムは全てのエージェントに同じポリシーや価値ネットワークを共有する。
しかし、多くの複雑なマルチエージェントタスクは、様々なサブタスクを扱う様々な特定の能力を持つエージェントを必要とする。
パラメータを無差別に共有することは、すべてのエージェント間で同様の振る舞いを生じさせ、探索効率を制限し、最終的なパフォーマンスを損なう。
学習の複雑さとエージェントの行動の多様性をバランスさせるため,協調marlで動的サブタスク割り当て(ldsa)を学ぶための新しい枠組みを提案する。
具体的には,まず,各サブタスクの同一性に応じてベクトル表現を構成するサブタスクエンコーダを紹介する。
エージェントを異なるサブタスクに合理的に割り当てるために,同じサブタスクに類似するエージェントを動的にグループ化する機能ベースのサブタスク選択戦略を提案する。
次に、サブタスクポリシーをその表現に条件付けし、同じサブタスクを扱うエージェントが、サブタスクポリシーをトレーニングするための経験を共有する。
さらに,サブタスク間の表現差異を増大させるために2つの正規化器を導入し,各サブタスクを頻繁に変更してトレーニングを安定させるエージェントを回避する。
実験の結果,LDSAはより優れたコラボレーションのための合理的かつ効果的なサブタスク割り当てを学習し,StarCraft IIマイクロマネジメントベンチマークの学習性能を著しく向上させることがわかった。
関連論文リスト
- Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。
Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文 参考訳(メタデータ) (2024-11-02T09:03:23Z) - Variational Offline Multi-agent Skill Discovery [43.869625428099425]
本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。
提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再トレーニングすることなく,関連するタスク間で伝達可能である。
論文 参考訳(メタデータ) (2024-05-26T00:24:46Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Robust Subtask Learning for Compositional Generalization [20.54144051436337]
我々は、どんなタスクでも実行できるように、サブタスクポリシーをトレーニングする問題に焦点を合わせます。
我々は、平均的なケースのパフォーマンスとは対照的に、すべてのタスクで最悪のケースのパフォーマンスを最大化することを目指している。
論文 参考訳(メタデータ) (2023-02-06T18:19:25Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - ALMA: Hierarchical Learning for Composite Multi-Agent Tasks [21.556661319375255]
本稿では,構造化タスクを活用可能な汎用学習手法であるALMAを紹介する。
ALMAは高レベルのサブタスク割り当てポリシーと低レベルのエージェントポリシーを同時に学習する。
ALMAは様々な課題のある環境で高度な協調行動を学ぶことを実証する。
論文 参考訳(メタデータ) (2022-05-27T19:12:23Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Celebrating Diversity in Shared Multi-Agent Reinforcement Learning [20.901606233349177]
深層多エージェント強化学習は、複雑な協調的な課題を解決することを約束している。
本稿では,共有型マルチエージェント強化学習の最適化と表現に多様性を導入することを目的とする。
提案手法は,Google Research Footballと超硬度StarCraft IIマイクロマネジメントタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-06-04T00:55:03Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。