論文の概要: Deploying Ten Thousand Robots: Scalable Imitation Learning for Lifelong Multi-Agent Path Finding
- arxiv url: http://arxiv.org/abs/2410.21415v1
- Date: Mon, 28 Oct 2024 18:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:25.430123
- Title: Deploying Ten Thousand Robots: Scalable Imitation Learning for Lifelong Multi-Agent Path Finding
- Title(参考訳): 10万個のロボットをデプロイする: 生涯にわたるマルチエージェント経路探索のためのスケーラブルな模倣学習
- Authors: He Jiang, Yutong Wang, Rishi Veerapaneni, Tanishq Duhan, Guillaume Sartoretti, Jiaoyang Li,
- Abstract要約: Lifelong Multi-Agent Path Finding (LMAPF) はMAPFの変種であり、エージェントは絶えず新しい目標に割り当てられる。
近年,この分野は個別の局所観測に基づいて,一段階の動作を反応的に生成する学習的手法を取り入れている。
本研究は,新しい通信モジュールと系統的な単一ステップ衝突分解とグローバルガイダンス技術を導入した模倣学習に基づくLMAPFソルバを提案する。
- 参考スコア(独自算出の注目度): 20.289593818360938
- License:
- Abstract: Lifelong Multi-Agent Path Finding (LMAPF) is a variant of MAPF where agents are continually assigned new goals, necessitating frequent re-planning to accommodate these dynamic changes. Recently, this field has embraced learning-based methods, which reactively generate single-step actions based on individual local observations. However, it is still challenging for them to match the performance of the best search-based algorithms, especially in large-scale settings. This work proposes an imitation-learning-based LMAPF solver that introduces a novel communication module and systematic single-step collision resolution and global guidance techniques. Our proposed solver, Scalable Imitation Learning for LMAPF (SILLM), inherits the fast reasoning speed of learning-based methods and the high solution quality of search-based methods with the help of modern GPUs. Across six large-scale maps with up to 10,000 agents and varying obstacle structures, SILLM surpasses the best learning- and search-based baselines, achieving average throughput improvements of 137.7% and 16.0%, respectively. Furthermore, SILLM also beats the winning solution of the 2023 League of Robot Runners, an international LMAPF competition sponsored by Amazon Robotics. Finally, we validated SILLM with 10 real robots and 100 virtual robots in a mockup warehouse environment.
- Abstract(参考訳): Lifelong Multi-Agent Path Finding (LMAPF) はMAPFの変種であり、エージェントは新しい目標を常に割り当て、これらの動的変化に対応するために頻繁に再計画する必要がある。
近年,この分野は個別の局所観測に基づいて,一段階の動作を反応的に生成する学習的手法を取り入れている。
しかし、特に大規模な環境では、最高の検索ベースのアルゴリズムの性能にマッチすることは依然として困難である。
本研究は,新しい通信モジュールと系統的な単一ステップ衝突分解とグローバルガイダンス技術を導入した模倣学習に基づくLMAPFソルバを提案する。
提案手法は,LMAPF (SILLM) のためのスケーラブル・イミテーション・ラーニング・フォー・LMAPF (Scalable Imitation Learning for LMAPF) である。
最大10,000のエージェントと様々な障害物構造を持つ6つの大規模マップにおいて、SILLMは最高の学習ベースラインと検索ベースラインを超え、それぞれ137.7%と16.0%の平均スループット向上を達成した。
さらに、SILLMは、Amazon Roboticsが主催する国際LMAPFコンペである2023 League of Robot Runnersの優勝ソリューションも打ち負かしている。
最後に,モックアップ倉庫環境において,実ロボット10個と仮想ロボット100個を用いてSILLMを検証した。
関連論文リスト
- FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-25T03:15:17Z) - Towards Open-World Mobile Manipulation in Homes: Lessons from the Neurips 2023 HomeRobot Open Vocabulary Mobile Manipulation Challenge [93.4434417387526]
ロボット工学における鍵となるベンチマークタスクとして,Open Vocabulary Mobile Manipulationを提案する。
我々は,この課題に対する解決策を評価するために,シミュレーションと実世界のコンポーネントを兼ね備えたNeurIPS 2023コンペティションを組織した。
シミュレーションと実環境設定の両方で使用される結果と方法論を詳述する。
論文 参考訳(メタデータ) (2024-07-09T15:15:01Z) - Scaling Lifelong Multi-Agent Path Finding to More Realistic Settings: Research Challenges and Opportunities [44.292720085661585]
我々は2023年のLMAPFコンペティションに勝利のアプローチを提示する。
最初の課題は、限られた計画時間内で高品質なLMAPFソリューションを探すことである。
第2の課題は、LMAPFアルゴリズムにおける筋萎縮と行動の影響を緩和することである。
第3の課題は、文学と現実世界の応用で使用されるLMAPFモデルのギャップを埋めることである。
論文 参考訳(メタデータ) (2024-04-24T19:37:18Z) - Adaptive Anytime Multi-Agent Path Finding Using Bandit-Based Large
Neighborhood Search [30.364955687049292]
MAPFはLarge Neborhood Search(LNS)に基づいている
探索を併用したBandit-based Adaptive LArge Neighborhood Search(BALANCE)を提案する。
大規模シナリオでは、最先端のMAPFと比較して、少なくとも50%のコスト改善が実証的に実証されている。
論文 参考訳(メタデータ) (2023-12-28T01:24:42Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time
Multi-Robot Cooperative Exploration [16.681164058779146]
本稿では,複数のロボットが,未知の領域をできるだけ早く探索する必要がある,協調探索の課題について考察する。
既存のMARLベースの手法では、すべてのエージェントが完全に同期的に動作していると仮定して、探索効率の指標としてアクション作成ステップを採用している。
本稿では,非同期MARLソリューションであるAsynchronous Coordination Explorer (ACE)を提案する。
論文 参考訳(メタデータ) (2023-01-09T14:53:38Z) - Graph-Based Multi-Robot Path Finding and Planning [3.4260993997836753]
複数のロボットの衝突のない経路を計画することは、現実のマルチロボットシステムにとって重要である。
近年の進歩により、何百ものロボットの衝突のない経路を計算できるMAPFアルゴリズムが実現されている。
論文 参考訳(メタデータ) (2022-06-22T18:47:00Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and
Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。
既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。
本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T08:47:58Z) - Compilation-based Solvers for Multi-Agent Path Finding: a Survey,
Discussion, and Future Opportunities [7.766921168069532]
このトピックの過去の発展と現在の傾向から学んだ教訓を示し、その広範な影響について議論します。
最適MAPF解決のための2つの主要なアプローチは、(1)MAPFを直接解決する専用の検索ベース手法、(2)MAPFインスタンスを異なる確立された形式でインスタンスに還元するコンパイルベース手法である。
論文 参考訳(メタデータ) (2021-04-23T20:13:12Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。