Fugu-MT 論文翻訳(概要): E-MAPP: Efficient Multi-Agent Reinforcement Learning with Parallel Program Guidance

論文の概要: E-MAPP: Efficient Multi-Agent Reinforcement Learning with Parallel Program Guidance

arxiv url: http://arxiv.org/abs/2212.02064v1
Date: Mon, 5 Dec 2022 07:02:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-06 16:59:53.944821
Title: E-MAPP: Efficient Multi-Agent Reinforcement Learning with Parallel Program Guidance
Title（参考訳）: E-MAPP:並列プログラム誘導による効率的なマルチエージェント強化学習
Authors: Can Chang, Ni Mu, Jiajun Wu, Ling Pan, Huazhe Xu
Abstract要約: 並列プログラムガイダンスを用いた効率的なマルチエージェント強化学習(E-MAPP)を提案する。 E-MAPPは並列プログラムを活用する新しいフレームワークで、複数のエージェントを誘導し、10ドル以上の計画を必要とする目標を効率的に達成する。その結果,E-MAPPは完成率,時間効率,ゼロショット一般化能力において,大きなマージンで優れたベースラインを達成できることが示唆された。
参考スコア（独自算出の注目度）: 20.03014783858498
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A critical challenge in multi-agent reinforcement learning(MARL) is for multiple agents to efficiently accomplish complex, long-horizon tasks. The agents often have difficulties in cooperating on common goals, dividing complex tasks, and planning through several stages to make progress. We propose to address these challenges by guiding agents with programs designed for parallelization, since programs as a representation contain rich structural and semantic information, and are widely used as abstractions for long-horizon tasks. Specifically, we introduce Efficient Multi-Agent Reinforcement Learning with Parallel Program Guidance(E-MAPP), a novel framework that leverages parallel programs to guide multiple agents to efficiently accomplish goals that require planning over $10+$ stages. E-MAPP integrates the structural information from a parallel program, promotes the cooperative behaviors grounded in program semantics, and improves the time efficiency via a task allocator. We conduct extensive experiments on a series of challenging, long-horizon cooperative tasks in the Overcooked environment. Results show that E-MAPP outperforms strong baselines in terms of the completion rate, time efficiency, and zero-shot generalization ability by a large margin.
Abstract（参考訳）: マルチエージェント強化学習(MARL)における重要な課題は、複数のエージェントが複雑な長期的タスクを効率的に達成することである。エージェントはしばしば共通の目標の協調、複雑なタスクの分割、進行のためのいくつかの段階の計画に苦労する。表現としてのプログラムは豊富な構造情報や意味情報を含んでおり、長期的タスクの抽象化として広く利用されているため、並列化のために設計されたプログラムをエージェントに導くことでこれらの課題に対処することを提案する。具体的には,並列プログラムを用いた効率的なマルチエージェント強化学習(e-mapp)を導入する。並列プログラムを活用した新しいフレームワークで,複数のエージェントを誘導し,10ドル以上のステージ計画を必要とする目標を効率的に達成する。 E-MAPPは並列プログラムからの構造情報を統合し、プログラム意味論に基づく協調行動を促進し、タスクアロケータを介して時間効率を向上させる。オーバークッキング環境における長期協調作業の課題について広範な実験を行った。その結果,E-MAPPは完成率,時間効率,ゼロショット一般化能力において,大きなマージンで優れたベースラインを達成できることがわかった。

関連論文リスト

Optimizing Sequential Multi-Step Tasks with Parallel LLM Agents [15.26802977779826]
M1-Parallelは、異なるソリューションパスを明らかにするために、複数のマルチエージェントチームを並行して実行するフレームワークである。早期終端を持つM1-Parallelは精度を保ちながら最大2.2倍のスピードアップを達成することを示す。さらに,多種多様な実行計画を奨励する戦略についても検討するが,反復サンプリングによる追加的なパフォーマンス向上は見つからない。
論文参考訳（メタデータ） (2025-07-11T18:09:22Z)
EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [65.48902212293903]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。 EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-10T02:39:55Z)
Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文参考訳（メタデータ） (2025-05-29T07:24:37Z)
Enhancing Multi-Agent Systems via Reinforcement Learning with LLM-based Planner and Graph-based Policy [31.041340552853004]
Graph Collaboration MARL (LGC-MARL)は、Large Language Models (LLM)とMulti-Agent Reinforcement Learning (MARL)を効率的に組み合わせたフレームワークである。 LGC-MARLは複雑なタスクを実行可能なサブタスクに分解し、グラフベースの調整によって複数のエージェント間の効率的な協調を実現する。 AI2-THORシミュレーションプラットフォームの実験結果から,LGC-MARLの性能とスケーラビリティが向上した。
論文参考訳（メタデータ） (2025-03-13T05:02:49Z)
O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文参考訳（メタデータ） (2025-01-31T08:08:20Z)
CaPo: Cooperative Plan Optimization for Efficient Embodied Multi-Agent Cooperation [98.11670473661587]
CaPoは,1)メタプラン生成,2)プログレッシブなメタプランと実行の2つのフェーズで協調効率を向上する。 3Dworld Multi-Agent TransportとCommunicative Watch-And-Helpタスクの実験結果は、CaPoが最先端技術と比較してタスク完了率と効率をはるかに高めることを示した。
論文参考訳（メタデータ） (2024-11-07T13:08:04Z)
Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。 Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文参考訳（メタデータ） (2024-11-02T09:03:23Z)
LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner [9.044939946653002]
言語モデル(LM)は、自然言語を理解する強力な能力を有しており、人間の指示を単純なロボットタスクの詳細な計画に変換するのに効果的である。本稿では,言語モデル駆動型多エージェントPDDLプランナ(LaMMA-P)を提案する。 LaMMA-Pは、LMの推論能力と従来の探索プランナーの強みを統合し、高い成功率と効率を達成する。
論文参考訳（メタデータ） (2024-09-30T17:58:18Z)
APPL: A Prompt Programming Language for Harmonious Integration of Programs and Large Language Model Prompts [21.819126948549766]
大規模言語モデル(LLM)は、巧妙なプロンプトの助けを借りて、多様なタスクを扱う能力が高まっている。 APPLはコンピュータプログラムとLLMの間のブリッジとして機能し、Python関数へのプロンプトのシームレスな埋め込みを可能にする。
論文参考訳（メタデータ） (2024-06-19T02:29:59Z)
Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文参考訳（メタデータ） (2023-12-28T13:50:42Z)
Improving Planning with Large Language Models: A Modular Agentic Architecture [7.63815864256878]
大規模言語モデル(LLM)は、多段階の推論や目標指向の計画を必要とするタスクに悩まされることが多い。本稿では,特殊モジュールの反復的相互作用によって計画が達成されるエージェントアーキテクチャ,MAPを提案する。 MAPは両方の標準LLM法よりも大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2023-09-30T00:10:14Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。 PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文参考訳（メタデータ） (2021-06-05T03:27:08Z)
Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文参考訳（メタデータ） (2020-05-27T01:10:41Z)
Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文参考訳（メタデータ） (2020-01-19T06:33:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。