論文の概要: Deploying Ten Thousand Robots: Scalable Imitation Learning for Lifelong Multi-Agent Path Finding
- arxiv url: http://arxiv.org/abs/2410.21415v2
- Date: Sun, 18 May 2025 01:41:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.291894
- Title: Deploying Ten Thousand Robots: Scalable Imitation Learning for Lifelong Multi-Agent Path Finding
- Title(参考訳): 10万個のロボットをデプロイする: 生涯にわたるマルチエージェント経路探索のためのスケーラブルな模倣学習
- Authors: He Jiang, Yutong Wang, Rishi Veerapaneni, Tanishq Duhan, Guillaume Sartoretti, Jiaoyang Li,
- Abstract要約: LMAPF (Lifelong Multi-Agent Path Finding) は、複数エージェントの衝突のない経路を繰り返す。
近年、この分野は学習に基づく手法を採用しており、シングルステップアクションを反応的に生成している。
本研究は,新しい通信モジュールを導入した模倣学習に基づくLMAPFソルバを提案する。
- 参考スコア(独自算出の注目度): 20.289593818360938
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Lifelong Multi-Agent Path Finding (LMAPF) repeatedly finds collision-free paths for multiple agents that are continually assigned new goals when they reach current ones. Recently, this field has embraced learning-based methods, which reactively generate single-step actions based on individual local observations. However, it is still challenging for them to match the performance of the best search-based algorithms, especially in large-scale settings. This work proposes an imitation-learning-based LMAPF solver that introduces a novel communication module as well as systematic single-step collision resolution and global guidance techniques. Our proposed solver, Scalable Imitation Learning for LMAPF (SILLM), inherits the fast reasoning speed of learning-based methods and the high solution quality of search-based methods with the help of modern GPUs. Across six large-scale maps with up to 10,000 agents and varying obstacle structures, SILLM surpasses the best learning- and search-based baselines, achieving average throughput improvements of 137.7% and 16.0%, respectively. Furthermore, SILLM also beats the winning solution of the 2023 League of Robot Runners, an international LMAPF competition. Finally, we validated SILLM with 10 real robots and 100 virtual robots in a mock warehouse environment.
- Abstract(参考訳): Lifelong Multi-Agent Path Finding (LMAPF) は、複数のエージェントに対して衝突のない経路を何度も発見する。
近年,この分野は個別の局所観測に基づいて,一段階の動作を反応的に生成する学習的手法を取り入れている。
しかし、特に大規模な環境では、最高の検索ベースのアルゴリズムの性能にマッチすることは依然として困難である。
本研究は,新しい通信モジュールを導入した模倣学習に基づくLMAPFソルバと,系統的な単一ステップ衝突解決とグローバルガイダンス技術を提案する。
提案手法は,LMAPF (SILLM) のためのスケーラブル・イミテーション・ラーニング・フォー・LMAPF (Scalable Imitation Learning for LMAPF) である。
最大10,000のエージェントと様々な障害物構造を持つ6つの大規模マップにおいて、SILLMは最高の学習ベースラインと検索ベースラインを超え、それぞれ137.7%と16.0%の平均スループット向上を達成した。
さらに、SILLMは国際LMAPFコンペティションである2023 League of Robot Runnersで優勝した。
最後に,模擬倉庫環境における実ロボット10台と仮想ロボット100台によるSILLMの検証を行った。
関連論文リスト
- RAILGUN: A Unified Convolutional Policy for Multi-Agent Path Finding Across Different Environments and Tasks [17.17370365888357]
Multi-Agent Path Finding (MAPF) は、空中スワムから倉庫の自動化まで、様々な用途に欠かせない。
我々はRAILGUNと呼ばれるMAPF問題に対する最初の集中型学習ベースのポリシーを開発した。
CNNベースのアーキテクチャを活用することで、RAILGUNはさまざまなマップをまたいで一般化し、任意の数のエージェントを処理することができる。
論文 参考訳(メタデータ) (2025-03-04T20:35:20Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - Multi-Agent Motion Planning For Differential Drive Robots Through Stationary State Search [5.9176395108304805]
MAMP(Multi-Agent Motion Planning)は、交通管理、空港の運営、倉庫の自動化など、様々な分野で応用されている。
本稿では,これらの課題に対処するため,MASSと呼ばれる3段階のフレームワークを提案する。
MASSはMAPFベースの手法と定常状態探索プランナを組み合わせることで,高品質なキノダイナミックな計画を生成する。
論文 参考訳(メタデータ) (2024-12-17T22:17:42Z) - FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-25T03:15:17Z) - Towards Open-World Mobile Manipulation in Homes: Lessons from the Neurips 2023 HomeRobot Open Vocabulary Mobile Manipulation Challenge [93.4434417387526]
ロボット工学における鍵となるベンチマークタスクとして,Open Vocabulary Mobile Manipulationを提案する。
我々は,この課題に対する解決策を評価するために,シミュレーションと実世界のコンポーネントを兼ね備えたNeurIPS 2023コンペティションを組織した。
シミュレーションと実環境設定の両方で使用される結果と方法論を詳述する。
論文 参考訳(メタデータ) (2024-07-09T15:15:01Z) - Scaling Lifelong Multi-Agent Path Finding to More Realistic Settings: Research Challenges and Opportunities [44.292720085661585]
我々は2023年のLMAPFコンペティションに勝利のアプローチを提示する。
最初の課題は、限られた計画時間内で高品質なLMAPFソリューションを探すことである。
第2の課題は、LMAPFアルゴリズムにおける筋萎縮と行動の影響を緩和することである。
第3の課題は、文学と現実世界の応用で使用されるLMAPFモデルのギャップを埋めることである。
論文 参考訳(メタデータ) (2024-04-24T19:37:18Z) - Adaptive Anytime Multi-Agent Path Finding Using Bandit-Based Large
Neighborhood Search [30.364955687049292]
MAPFはLarge Neborhood Search(LNS)に基づいている
探索を併用したBandit-based Adaptive LArge Neighborhood Search(BALANCE)を提案する。
大規模シナリオでは、最先端のMAPFと比較して、少なくとも50%のコスト改善が実証的に実証されている。
論文 参考訳(メタデータ) (2023-12-28T01:24:42Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time
Multi-Robot Cooperative Exploration [16.681164058779146]
本稿では,複数のロボットが,未知の領域をできるだけ早く探索する必要がある,協調探索の課題について考察する。
既存のMARLベースの手法では、すべてのエージェントが完全に同期的に動作していると仮定して、探索効率の指標としてアクション作成ステップを採用している。
本稿では,非同期MARLソリューションであるAsynchronous Coordination Explorer (ACE)を提案する。
論文 参考訳(メタデータ) (2023-01-09T14:53:38Z) - Graph-Based Multi-Robot Path Finding and Planning [3.4260993997836753]
複数のロボットの衝突のない経路を計画することは、現実のマルチロボットシステムにとって重要である。
近年の進歩により、何百ものロボットの衝突のない経路を計算できるMAPFアルゴリズムが実現されている。
論文 参考訳(メタデータ) (2022-06-22T18:47:00Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and
Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。
既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。
本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T08:47:58Z) - Compilation-based Solvers for Multi-Agent Path Finding: a Survey,
Discussion, and Future Opportunities [7.766921168069532]
このトピックの過去の発展と現在の傾向から学んだ教訓を示し、その広範な影響について議論します。
最適MAPF解決のための2つの主要なアプローチは、(1)MAPFを直接解決する専用の検索ベース手法、(2)MAPFインスタンスを異なる確立された形式でインスタンスに還元するコンパイルベース手法である。
論文 参考訳(メタデータ) (2021-04-23T20:13:12Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。