論文の概要: ALMA: Hierarchical Learning for Composite Multi-Agent Tasks
- arxiv url: http://arxiv.org/abs/2205.14205v1
- Date: Fri, 27 May 2022 19:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 05:20:29.342984
- Title: ALMA: Hierarchical Learning for Composite Multi-Agent Tasks
- Title(参考訳): ALMA:複合マルチエージェントタスクの階層的学習
- Authors: Shariq Iqbal, Robby Costales, Fei Sha
- Abstract要約: 本稿では,構造化タスクを活用可能な汎用学習手法であるALMAを紹介する。
ALMAは高レベルのサブタスク割り当てポリシーと低レベルのエージェントポリシーを同時に学習する。
ALMAは様々な課題のある環境で高度な協調行動を学ぶことを実証する。
- 参考スコア(独自算出の注目度): 21.556661319375255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant progress on multi-agent reinforcement learning (MARL) in
recent years, coordination in complex domains remains a challenge. Work in MARL
often focuses on solving tasks where agents interact with all other agents and
entities in the environment; however, we observe that real-world tasks are
often composed of several isolated instances of local agent interactions
(subtasks), and each agent can meaningfully focus on one subtask to the
exclusion of all else in the environment. In these composite tasks, successful
policies can often be decomposed into two levels of decision-making: agents are
allocated to specific subtasks and each agent acts productively towards their
assigned subtask alone. This decomposed decision making provides a strong
structural inductive bias, significantly reduces agent observation spaces, and
encourages subtask-specific policies to be reused and composed during training,
as opposed to treating each new composition of subtasks as unique. We introduce
ALMA, a general learning method for taking advantage of these structured tasks.
ALMA simultaneously learns a high-level subtask allocation policy and low-level
agent policies. We demonstrate that ALMA learns sophisticated coordination
behavior in a number of challenging environments, outperforming strong
baselines. ALMA's modularity also enables it to better generalize to new
environment configurations. Finally, we find that while ALMA can integrate
separately trained allocation and action policies, the best performance is
obtained only by training all components jointly.
- Abstract(参考訳): 近年のマルチエージェント強化学習(MARL)の進歩にもかかわらず、複雑な領域での協調は依然として課題である。
MARLにおける作業は、エージェントが環境内の他のすべてのエージェントやエンティティと相互作用するタスクの解決に重点を置いていることが多いが、実世界のタスクは、しばしば複数のローカルエージェントインタラクション(サブタスク)のインスタンスで構成されており、各エージェントは、環境内の他のすべてのタスクを排除して、1つのサブタスクに集中することができる。
エージェントは特定のサブタスクに割り当てられ、各エージェントは割り当てられたサブタスクのみに対して生産的に作用する。
この分解された意思決定は強い構造的帰納的バイアスをもたらし、エージェント観察空間を著しく減少させ、サブタスクの新たな構成をユニークなものとして扱うのではなく、トレーニング中にサブタスク固有のポリシーを再利用し構成することを奨励する。
構造化タスクを活用するための一般的な学習方法であるalmaを紹介する。
ALMAは高レベルのサブタスク割り当てポリシーと低レベルのエージェントポリシーを同時に学習する。
ALMAは,多くの困難な環境において高度な協調行動を学び,高いベースラインを達成している。
ALMAのモジュール性は、新しい環境設定をより一般化することを可能にする。
最後に、ALMAは個別に訓練されたアロケーションとアクションポリシーを統合することができるが、最高のパフォーマンスは、すべてのコンポーネントを共同でトレーニングすることで得られる。
関連論文リスト
- Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines [5.600971575680638]
Reward Machines (RMs) を用いた協調型マルチエージェント強化学習(MARL)問題の検討
より複雑なシナリオを扱えるRM(MAHRM)階層のマルチエージェント強化学習を提案する。
3つの協調MARLドメインの実験結果から、MAHRMは、他のMARLメソッドよりも高いレベルの事象の事前知識の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-03-08T06:38:22Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Reward Machines for Cooperative Multi-Agent Reinforcement Learning [30.84689303706561]
協調型マルチエージェント強化学習において、エージェントの集合は共通の目標を達成するために共有環境で対話することを学ぶ。
本稿では、報酬関数の構造化表現として使われる単純な機械である報酬機械(RM)を用いて、チームのタスクを符号化する手法を提案する。
マルチエージェント設定におけるRMの新たな解釈は、要求されるチームメイト相互依存性を明示的に符号化し、チームレベルのタスクを個々のエージェントのサブタスクに分解することを可能にする。
論文 参考訳(メタデータ) (2020-07-03T23:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。