論文の概要: Learn to Follow: Decentralized Lifelong Multi-agent Pathfinding via
Planning and Learning
- arxiv url: http://arxiv.org/abs/2310.01207v1
- Date: Mon, 2 Oct 2023 13:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 21:41:08.798913
- Title: Learn to Follow: Decentralized Lifelong Multi-agent Pathfinding via
Planning and Learning
- Title(参考訳): learn to follow: 計画と学習による分散生涯のマルチエージェントパスファイニング
- Authors: Alexey Skrynnik, Anton Andreychuk, Maria Nesterova, Konstantin
Yakovlev, Aleksandr Panov
- Abstract要約: マルチエージェントパスフィンディング(MAPF)問題は通常、グラフに制限されたエージェントの集合に対する競合のないパスの集合を見つけるよう要求する。
本研究では,エージェントの位置や目標に関する情報をすべて収集する中央制御器が存在しない場合の分散MAPF設定について検討する。
我々は,先行するエージェントに新たな目標を連続的に割り当てることを含むMAPFの実用上重要な寿命変化に焦点をあてる。
- 参考スコア(独自算出の注目度): 46.354187895184154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent Pathfinding (MAPF) problem generally asks to find a set of
conflict-free paths for a set of agents confined to a graph and is typically
solved in a centralized fashion.
Conversely, in this work, we investigate the decentralized MAPF setting, when
the central controller that posses all the information on the agents' locations
and goals is absent and the agents have to sequientially decide the actions on
their own without having access to a full state of the environment. We focus on
the practically important lifelong variant of MAPF, which involves continuously
assigning new goals to the agents upon arrival to the previous ones. To address
this complex problem, we propose a method that integrates two complementary
approaches: planning with heuristic search and reinforcement learning through
policy optimization. Planning is utilized to construct and re-plan individual
paths. We enhance our planning algorithm with a dedicated technique tailored to
avoid congestion and increase the throughput of the system. We employ
reinforcement learning to discover the collision avoidance policies that
effectively guide the agents along the paths. The policy is implemented as a
neural network and is effectively trained without any reward-shaping or
external guidance.
We evaluate our method on a wide range of setups comparing it to the
state-of-the-art solvers. The results show that our method consistently
outperforms the learnable competitors, showing higher throughput and better
ability to generalize to the maps that were unseen at the training stage.
Moreover our solver outperforms a rule-based one in terms of throughput and is
an order of magnitude faster than a state-of-the-art search-based solver.
- Abstract(参考訳): MAPF(Multi-agent Pathfinding)問題は通常、グラフに閉じ込められたエージェントの集合に対するコンフリクトフリーパスの集合を見つけるよう求め、典型的には中央集権的な方法で解決される。
そこで,本研究では,エージェントの位置情報や目標に関する情報を収集する中央制御装置が欠如し,エージェントが環境の完全な状態にアクセスすることなく,自力で行動を決定する必要がある場合の分散mapf設定について検討する。
我々は,先行するエージェントに新たな目標を連続的に割り当てることを含むMAPFの実用上重要な寿命変化に焦点をあてる。
この複雑な問題に対処するために,ヒューリスティック検索による計画とポリシー最適化による強化学習という,2つの補完的アプローチを統合する手法を提案する。
計画は個々の経路の構築と再計画に利用される。
我々は,システムの混雑回避とスループット向上のために,専用手法で計画アルゴリズムを強化した。
我々は,経路に沿ってエージェントを効果的に誘導する衝突回避ポリシーを発見するために強化学習を用いる。
このポリシはニューラルネットワークとして実装され、報酬シェーピングや外部ガイダンスなしで効果的にトレーニングされる。
我々は,この手法を最先端の解法と比較し,幅広い設定で評価した。
その結果,本手法は学習可能な競争相手よりも優れており,学習段階では見つからなかった地図に高いスループットと一般化能力を示すことがわかった。
さらに,我々の解法はスループットの点でルールベースよりも優れており,最先端の探索ベース解法よりも桁違いに高速である。
関連論文リスト
- Decentralized Monte Carlo Tree Search for Partially Observable
Multi-agent Pathfinding [49.730902939565986]
マルチエージェントパスフィンディング問題は、グラフに閉じ込められたエージェントのグループに対するコンフリクトフリーパスのセットを見つけることである。
本研究では、エージェントが他のエージェントをローカルにのみ観察できる分散MAPF設定に焦点を当てた。
MAPFタスクのための分散マルチエージェントモンテカルロ木探索法を提案する。
論文 参考訳(メタデータ) (2023-12-26T06:57:22Z) - Distributed multi-agent target search and tracking with Gaussian process
and reinforcement learning [26.499110405106812]
分散プロセスに基づくターゲットマップ構築によるマルチエージェント強化学習手法を提案する。
シミュレーションにおける訓練された方針の性能と伝達性を評価し, 小型無人航空機の群集上での手法を実証した。
論文 参考訳(メタデータ) (2023-08-29T01:53:14Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - CTRMs: Learning to Construct Cooperative Timed Roadmaps for Multi-agent
Path Planning in Continuous Spaces [20.389416558418382]
協調時間ロードマップ(CTRM)と呼ばれる新しいロードマップの概念を提案する。
CTRMは、エージェント同士の衝突を避けるために、他のエージェントの振る舞いを考慮する方法で、潜在的な溶液経路の周りの重要な位置に集中することができる。
我々は、関連する問題事例と妥当なソリューションのコレクションから生成モデルを学習する機械学習アプローチを開発した。
論文 参考訳(メタデータ) (2022-01-24T05:43:59Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Subdimensional Expansion Using Attention-Based Learning For Multi-Agent
Path Finding [9.2127262112464]
MAPF(Multi-Agent Path Finding)は、各開始点から目標地点までの複数のエージェントに対する競合のないパスを見つける。
我々は、この学習に基づくシングルエージェントプランナーをM*に統合することにより、LM*と呼ばれる新しいマルチエージェントプランナーを開発する。
以上の結果から,M* と比較した場合,LM* はコンフリクトが少なく,高速に動作し,高い成功率を享受できることがわかった。
論文 参考訳(メタデータ) (2021-09-29T20:01:04Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Distributed Heuristic Multi-Agent Path Finding with Communication [7.854890646114447]
大規模ロボットシステムにはMAPF(Multi-Agent Path Finding)が不可欠である。
近年,部分観測可能な環境下での分散警察の学習に強化学習(RL)を適用している。
本稿では,深層学習とコミュニケーションを組み合わせることで,MAPFの新たな学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-21T18:50:58Z) - Compilation-based Solvers for Multi-Agent Path Finding: a Survey,
Discussion, and Future Opportunities [7.766921168069532]
このトピックの過去の発展と現在の傾向から学んだ教訓を示し、その広範な影響について議論します。
最適MAPF解決のための2つの主要なアプローチは、(1)MAPFを直接解決する専用の検索ベース手法、(2)MAPFインスタンスを異なる確立された形式でインスタンスに還元するコンパイルベース手法である。
論文 参考訳(メタデータ) (2021-04-23T20:13:12Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。