論文の概要: Learning Graph-Enhanced Commander-Executor for Multi-Agent Navigation
- arxiv url: http://arxiv.org/abs/2302.04094v1
- Date: Wed, 8 Feb 2023 14:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 16:13:27.820094
- Title: Learning Graph-Enhanced Commander-Executor for Multi-Agent Navigation
- Title(参考訳): マルチエージェントナビゲーションのためのグラフエンハンスドコマンダエグゼクタの学習
- Authors: Xinyi Yang, Shiyu Huang, Yiwen Sun, Yuxiang Yang, Chao Yu, Wei-Wei Tu,
Huazhong Yang, Yu Wang
- Abstract要約: マルチエージェント強化学習(MARL)では,この問題の解決に有望な結果が得られた。
目標条件付き階層型強化学習(HRL)は、この課題に取り組むための有望な方向性を提供する。
マルチエージェントナビゲーションタスクのためのグラフベースのゴール条件階層手法であるMAGE-Xを提案する。
- 参考スコア(独自算出の注目度): 28.71585436726336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the multi-agent navigation problem, which requires
multiple agents to reach the target goals in a limited time. Multi-agent
reinforcement learning (MARL) has shown promising results for solving this
issue. However, it is inefficient for MARL to directly explore the (nearly)
optimal policy in the large search space, which is exacerbated as the agent
number increases (e.g., 10+ agents) or the environment is more complex (e.g.,
3D simulator). Goal-conditioned hierarchical reinforcement learning (HRL)
provides a promising direction to tackle this challenge by introducing a
hierarchical structure to decompose the search space, where the low-level
policy predicts primitive actions in the guidance of the goals derived from the
high-level policy. In this paper, we propose Multi-Agent Graph-Enhanced
Commander-Executor (MAGE-X), a graph-based goal-conditioned hierarchical method
for multi-agent navigation tasks. MAGE-X comprises a high-level Goal Commander
and a low-level Action Executor. The Goal Commander predicts the probability
distribution of goals and leverages them to assign each agent the most
appropriate final target. The Action Executor utilizes graph neural networks
(GNN) to construct a subgraph for each agent that only contains crucial
partners to improve cooperation. Additionally, the Goal Encoder in the Action
Executor captures the relationship between the agent and the designated goal to
encourage the agent to reach the final target. The results show that MAGE-X
outperforms the state-of-the-art MARL baselines with a 100% success rate with
only 3 million training steps in multi-agent particle environments (MPE) with
50 agents, and at least a 12% higher success rate and 2x higher data efficiency
in a more complicated quadrotor 3D navigation task.
- Abstract(参考訳): 本稿では,複数のエージェントが目標目標を達成するのに限られた時間を要するマルチエージェントナビゲーション問題について検討する。
マルチエージェント強化学習(MARL)はこの問題を解決する上で有望な結果を示している。
しかしながら,エージェント数の増加(10+エージェントなど)や環境の複雑化(3dシミュレータなど)に伴って悪化する大規模な探索空間において,marlが(ほぼ)最適方針を直接探索することは非効率である。
目標条件付き階層型強化学習(HRL)は,探索空間を分解する階層構造を導入することで,この課題に取り組む上で有望な方向を提供する。
本稿では,マルチエージェントナビゲーションタスクのためのグラフベースの目標条件付き階層的手法であるMAGE-Xを提案する。
MAGE-Xは高レベルゴールコマンドと低レベルアクション実行器で構成される。
ゴールコマンドはゴールの確率分布を予測し、それらを利用して各エージェントを最も適切な最終目標に割り当てる。
Action Executorはグラフニューラルネットワーク(GNN)を使用して,重要なパートナのみを含む各エージェントのサブグラフを構築し,コラボレーションを改善する。
さらに、アクションエグゼキュータ内の目標エンコーダは、エージェントと指定された目標との関係をキャプチャし、エージェントが最終目標に到達するように促す。
以上の結果から,mage-xは,マルチエージェント粒子環境 (mpe) において約300万のトレーニングステップで100%の成功率,より複雑なクワッドローター3dナビゲーションタスクでは,少なくとも12%以上の成功率と2倍のデータ効率で,最先端のmarlベースラインよりも優れていた。
関連論文リスト
- HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model [39.169389255970806]
HiAgentは、サブゴールをメモリチャンクとして活用して、LLM(Large Language Model)ベースのエージェントの動作メモリを階層的に管理するフレームワークである。
その結果,HiAgentは成功率を2倍に向上し,平均ステップ数を3.8倍に削減した。
論文 参考訳(メタデータ) (2024-08-18T17:59:49Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - MASP: Scalable GNN-based Planning for Multi-Agent Navigation [17.788592987873905]
エージェント数の多いナビゲーションタスクのための目標条件付き階層型プランナを提案する。
また、グラフニューラルネットワーク(GNN)を活用し、エージェントと目標間の相互作用をモデル化し、目標達成を改善する。
その結果、MASPは古典的な計画ベースの競合やRLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-12-05T06:05:04Z) - Agents meet OKR: An Object and Key Results Driven Agent System with
Hierarchical Self-Collaboration and Self-Evaluation [25.308341461293857]
OKR-Agentは、タスク解決におけるLarge Language Models(LLM)の機能を強化するように設計されている。
我々のフレームワークには、階層オブジェクトとキー結果の生成とマルチレベル評価という、2つの新しいモジュールが含まれています。
論文 参考訳(メタデータ) (2023-11-28T06:16:30Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - A Cooperation Graph Approach for Multiagent Sparse Reward Reinforcement
Learning [7.2972297703292135]
マルチエージェント強化学習(MARL)は複雑な協調作業を解くことができる。
本稿では、協調グラフ(CG)と呼ばれるグラフネットワークを設計する。
協調グラフマルチエージェント強化学習(CG-MARL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-05T06:32:16Z) - Multi-Agent Embodied Visual Semantic Navigation with Scene Prior
Knowledge [42.37872230561632]
視覚的セマンティックナビゲーションでは、ロボットは自我中心の視覚的観察を行い、目標のクラスラベルが与えられる。
既存のモデルのほとんどは単一エージェントナビゲーションにのみ有効であり、より複雑なタスクを完了すると、単一のエージェントは低効率でフォールトトレランスが低い。
本稿では,複数のエージェントが協調して複数の対象物を見つけるマルチエージェント視覚意味ナビゲーションを提案する。
論文 参考訳(メタデータ) (2021-09-20T13:31:03Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。