論文の概要: Distributed Heuristic Multi-Agent Path Finding with Communication
- arxiv url: http://arxiv.org/abs/2106.11365v1
- Date: Mon, 21 Jun 2021 18:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 14:44:21.514879
- Title: Distributed Heuristic Multi-Agent Path Finding with Communication
- Title(参考訳): コミュニケーションによる分散ヒューリスティックなマルチエージェントパス探索
- Authors: Ziyuan Ma, Yudong Luo, Hang Ma
- Abstract要約: 大規模ロボットシステムにはMAPF(Multi-Agent Path Finding)が不可欠である。
近年,部分観測可能な環境下での分散警察の学習に強化学習(RL)を適用している。
本稿では,深層学習とコミュニケーションを組み合わせることで,MAPFの新たな学習手法を提案する。
- 参考スコア(独自算出の注目度): 7.854890646114447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Agent Path Finding (MAPF) is essential to large-scale robotic systems.
Recent methods have applied reinforcement learning (RL) to learn decentralized
polices in partially observable environments. A fundamental challenge of
obtaining collision-free policy is that agents need to learn cooperation to
handle congested situations. This paper combines communication with deep
Q-learning to provide a novel learning based method for MAPF, where agents
achieve cooperation via graph convolution. To guide RL algorithm on
long-horizon goal-oriented tasks, we embed the potential choices of shortest
paths from single source as heuristic guidance instead of using a specific path
as in most existing works. Our method treats each agent independently and
trains the model from a single agent's perspective. The final trained policy is
applied to each agent for decentralized execution. The whole system is
distributed during training and is trained under a curriculum learning
strategy. Empirical evaluation in obstacle-rich environment indicates the high
success rate with low average step of our method.
- Abstract(参考訳): 大規模ロボットシステムにはMAPF(Multi-Agent Path Finding)が不可欠である。
近年,部分観測可能な環境下での分散警察の学習に強化学習(RL)を適用している。
衝突のない政策を得るための根本的な課題は、エージェントが混雑した状況に対処するために協力を学ぶ必要があることである。
本稿では, エージェントがグラフ畳み込みによって協調するMAPFのための新しい学習手法を提供するために, 深層Q-ラーニングとコミュニケーションを組み合わせる。
長期的目標指向タスクにおいてRLアルゴリズムを導くため,既存の作業のように特定の経路を使用するのではなく,単一ソースからの最短経路の選択をヒューリスティックなガイダンスとして組み込む。
本手法は,各エージェントを独立に扱い,単一エージェントの観点からモデルを訓練する。
最終訓練されたポリシーは、分散実行のために各エージェントに適用される。
システム全体がトレーニング中に分散し、カリキュラム学習戦略の下でトレーニングされる。
障害物の多い環境における経験的評価は, 平均ステップが低く, 高い成功率を示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Multi-Agent Target Assignment and Path Finding for Intelligent Warehouse: A Cooperative Multi-Agent Deep Reinforcement Learning Perspective [6.148164795916424]
多エージェント目標割り当てと経路計画(TAPF)はインテリジェントウェアハウスにおける2つの重要な問題である。
協調型多エージェント深層強化学習(RL)の観点から目標の割り当てと経路計画を同時に解く方法を提案する。
実験結果から,本手法は様々なタスク設定において良好に動作することが示された。
論文 参考訳(メタデータ) (2024-08-25T07:32:58Z) - Learn to Follow: Decentralized Lifelong Multi-agent Pathfinding via
Planning and Learning [46.354187895184154]
マルチエージェントパスフィンディング(MAPF)問題は通常、グラフに制限されたエージェントの集合に対する競合のないパスの集合を見つけるよう要求する。
本研究では,エージェントの位置や目標に関する情報をすべて収集する中央制御器が存在しない場合の分散MAPF設定について検討する。
我々は,先行するエージェントに新たな目標を連続的に割り当てることを含むMAPFの実用上重要な寿命変化に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-02T13:51:32Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。