論文の概要: E-MAPP: Efficient Multi-Agent Reinforcement Learning with Parallel
Program Guidance
- arxiv url: http://arxiv.org/abs/2212.02064v1
- Date: Mon, 5 Dec 2022 07:02:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:59:53.944821
- Title: E-MAPP: Efficient Multi-Agent Reinforcement Learning with Parallel
Program Guidance
- Title(参考訳): E-MAPP:並列プログラム誘導による効率的なマルチエージェント強化学習
- Authors: Can Chang, Ni Mu, Jiajun Wu, Ling Pan, Huazhe Xu
- Abstract要約: 並列プログラムガイダンスを用いた効率的なマルチエージェント強化学習(E-MAPP)を提案する。
E-MAPPは並列プログラムを活用する新しいフレームワークで、複数のエージェントを誘導し、10ドル以上の計画を必要とする目標を効率的に達成する。
その結果,E-MAPPは完成率,時間効率,ゼロショット一般化能力において,大きなマージンで優れたベースラインを達成できることが示唆された。
- 参考スコア(独自算出の注目度): 20.03014783858498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A critical challenge in multi-agent reinforcement learning(MARL) is for
multiple agents to efficiently accomplish complex, long-horizon tasks. The
agents often have difficulties in cooperating on common goals, dividing complex
tasks, and planning through several stages to make progress. We propose to
address these challenges by guiding agents with programs designed for
parallelization, since programs as a representation contain rich structural and
semantic information, and are widely used as abstractions for long-horizon
tasks. Specifically, we introduce Efficient Multi-Agent Reinforcement Learning
with Parallel Program Guidance(E-MAPP), a novel framework that leverages
parallel programs to guide multiple agents to efficiently accomplish goals that
require planning over $10+$ stages. E-MAPP integrates the structural
information from a parallel program, promotes the cooperative behaviors
grounded in program semantics, and improves the time efficiency via a task
allocator. We conduct extensive experiments on a series of challenging,
long-horizon cooperative tasks in the Overcooked environment. Results show that
E-MAPP outperforms strong baselines in terms of the completion rate, time
efficiency, and zero-shot generalization ability by a large margin.
- Abstract(参考訳): マルチエージェント強化学習(MARL)における重要な課題は、複数のエージェントが複雑な長期的タスクを効率的に達成することである。
エージェントはしばしば共通の目標の協調、複雑なタスクの分割、進行のためのいくつかの段階の計画に苦労する。
表現としてのプログラムは豊富な構造情報や意味情報を含んでおり、長期的タスクの抽象化として広く利用されているため、並列化のために設計されたプログラムをエージェントに導くことでこれらの課題に対処することを提案する。
具体的には,並列プログラムを用いた効率的なマルチエージェント強化学習(e-mapp)を導入する。並列プログラムを活用した新しいフレームワークで,複数のエージェントを誘導し,10ドル以上のステージ計画を必要とする目標を効率的に達成する。
E-MAPPは並列プログラムからの構造情報を統合し、プログラム意味論に基づく協調行動を促進し、タスクアロケータを介して時間効率を向上させる。
オーバークッキング環境における長期協調作業の課題について広範な実験を行った。
その結果,E-MAPPは完成率,時間効率,ゼロショット一般化能力において,大きなマージンで優れたベースラインを達成できることがわかった。
関連論文リスト
- Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines [5.600971575680638]
Reward Machines (RMs) を用いた協調型マルチエージェント強化学習(MARL)問題の検討
より複雑なシナリオを扱えるRM(MAHRM)階層のマルチエージェント強化学習を提案する。
3つの協調MARLドメインの実験結果から、MAHRMは、他のMARLメソッドよりも高いレベルの事象の事前知識の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-03-08T06:38:22Z) - TDAG: A Multi-Agent Framework based on Dynamic Task Decomposition and
Agent Generation [45.028795422801764]
動的タスク分解・エージェント生成(TDAG)に基づくマルチエージェントフレームワークを提案する。
このフレームワークは複雑なタスクを小さなサブタスクに動的に分解し、それぞれが特定の生成されたサブエージェントに割り当てる。
ItineraryBenchは、さまざまな複雑さのタスク間でのメモリ、計画、ツール使用量のエージェントの能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-02-15T18:27:37Z) - MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-task Learning [29.88567810099265]
マルチタスク学習は複数の相関タスクを同時に訓練するように設計されている。
この課題に対処するために、デコーダフリーの視覚言語モデルCLIPを統合する。
CLIPのためのマルチモーダルアライメント・プロンプト(MmAP)を提案する。
論文 参考訳(メタデータ) (2023-12-14T03:33:02Z) - ADaPT: As-Needed Decomposition and Planning with Language Models [136.70875041342686]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。
ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。
以上の結果から,ADaPTは強いベースラインを確立した。
論文 参考訳(メタデータ) (2023-11-08T17:59:15Z) - Multi-agent Continual Coordination via Progressive Task
Contextualization [5.31057635825112]
本稿では,MACPro と呼ばれるプログレッシブタスクコンテキスト化によるマルチエージェント連続コーディネートを提案する。
複数のマルチエージェントベンチマークにおいて、既存の連続学習手法が失敗するのに対し、MACProは最適に近い性能を達成できることを示す。
論文 参考訳(メタデータ) (2023-05-07T15:04:56Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。
マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。
本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文 参考訳(メタデータ) (2020-01-19T06:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。