Fugu-MT 論文翻訳(概要): Deploying Ten Thousand Robots: Scalable Imitation Learning for Lifelong Multi-Agent Path Finding

論文の概要: Deploying Ten Thousand Robots: Scalable Imitation Learning for Lifelong Multi-Agent Path Finding

arxiv url: http://arxiv.org/abs/2410.21415v1
Date: Mon, 28 Oct 2024 18:13:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.549
Title: Deploying Ten Thousand Robots: Scalable Imitation Learning for Lifelong Multi-Agent Path Finding
Title（参考訳）: 10万個のロボットをデプロイする: 生涯にわたるマルチエージェント経路探索のためのスケーラブルな模倣学習
Authors: He Jiang, Yutong Wang, Rishi Veerapaneni, Tanishq Duhan, Guillaume Sartoretti, Jiaoyang Li,
Abstract要約: Lifelong Multi-Agent Path Finding (LMAPF) はMAPFの変種であり、エージェントは絶えず新しい目標に割り当てられる。近年,この分野は個別の局所観測に基づいて,一段階の動作を反応的に生成する学習的手法を取り入れている。本研究は,新しい通信モジュールと系統的な単一ステップ衝突分解とグローバルガイダンス技術を導入した模倣学習に基づくLMAPFソルバを提案する。
参考スコア（独自算出の注目度）: 20.289593818360938
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Lifelong Multi-Agent Path Finding (LMAPF) is a variant of MAPF where agents are continually assigned new goals, necessitating frequent re-planning to accommodate these dynamic changes. Recently, this field has embraced learning-based methods, which reactively generate single-step actions based on individual local observations. However, it is still challenging for them to match the performance of the best search-based algorithms, especially in large-scale settings. This work proposes an imitation-learning-based LMAPF solver that introduces a novel communication module and systematic single-step collision resolution and global guidance techniques. Our proposed solver, Scalable Imitation Learning for LMAPF (SILLM), inherits the fast reasoning speed of learning-based methods and the high solution quality of search-based methods with the help of modern GPUs. Across six large-scale maps with up to 10,000 agents and varying obstacle structures, SILLM surpasses the best learning- and search-based baselines, achieving average throughput improvements of 137.7% and 16.0%, respectively. Furthermore, SILLM also beats the winning solution of the 2023 League of Robot Runners, an international LMAPF competition sponsored by Amazon Robotics. Finally, we validated SILLM with 10 real robots and 100 virtual robots in a mockup warehouse environment.
Abstract（参考訳）: Lifelong Multi-Agent Path Finding (LMAPF) はMAPFの変種であり、エージェントは新しい目標を常に割り当て、これらの動的変化に対応するために頻繁に再計画する必要がある。近年,この分野は個別の局所観測に基づいて,一段階の動作を反応的に生成する学習的手法を取り入れている。しかし、特に大規模な環境では、最高の検索ベースのアルゴリズムの性能にマッチすることは依然として困難である。本研究は,新しい通信モジュールと系統的な単一ステップ衝突分解とグローバルガイダンス技術を導入した模倣学習に基づくLMAPFソルバを提案する。提案手法は,LMAPF (SILLM) のためのスケーラブル・イミテーション・ラーニング・フォー・LMAPF (Scalable Imitation Learning for LMAPF) である。最大10,000のエージェントと様々な障害物構造を持つ6つの大規模マップにおいて、SILLMは最高の学習ベースラインと検索ベースラインを超え、それぞれ137.7%と16.0%の平均スループット向上を達成した。さらに、SILLMは、Amazon Roboticsが主催する国際LMAPFコンペである2023 League of Robot Runnersの優勝ソリューションも打ち負かしている。最後に,モックアップ倉庫環境において,実ロボット10個と仮想ロボット100個を用いてSILLMを検証した。

関連論文リスト

K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model [57.440609834690385]
既存のアプローチでは、進化ループ内の高速コードジェネレータとして、LLM(Large Language Models)を扱います。我々は,共進化的世界モデルによる検索を提案し,この手法に基づいてK-Searchを構築する。 GQA, MLA, MoE カーネルを含む多種多様な複雑なカーネル上で K-Search を評価する。
論文参考訳（メタデータ） (2026-02-22T11:06:22Z)
DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。 MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文参考訳（メタデータ） (2025-09-15T10:59:57Z)
LLMAP: LLM-Assisted Multi-Objective Route Planning with User Preferences [31.10423199218523]
大規模言語モデル(LLM)の台頭により、リッチなユーザ目標を含む新たな研究領域を自然言語駆動で計画するルートが生まれている。本稿では,自然言語を理解し,タスクを識別し,ユーザの好みを抽出するLLM-asタスクを提案する。世界中の14の国と27の都市で、様々な複雑さでサンプリングされた1000のルーティングプロンプトを用いて広範な実験を行っている。
論文参考訳（メタデータ） (2025-09-14T02:30:19Z)
KompeteAI: Accelerated Autonomous Multi-Agent System for End-to-End Pipeline Generation for Machine Learning Problems [36.17807193758863]
KompeteAIは、動的ソリューション空間探索を備えた新しいAutoMLフレームワークである。我々は動的ソリューション空間探索を備えた新しいAutoMLフレームワークであるKompeteAIを紹介する。我々は,MLE-Benchにおける制約に対応するために,Kompete-benchを提案する。
論文参考訳（メタデータ） (2025-08-13T20:29:56Z)
LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling [52.1366057696919]
LOPは、ターゲットプルーニング制約から最適なプルーニング戦略を学ぶ、効率的なニューラルプルーニングフレームワークである。 LOPアプローチでは、自動回帰ニューラルネットワーク(NN)を使用して、ターゲットプルーニング制約に適応したレイヤワイズプルーニング戦略を直接予測する。実験の結果,LOPは最大3桁のスピードアップを達成しつつ,様々な測定値において最先端のプルーニング手法よりも優れていた。
論文参考訳（メタデータ） (2025-06-15T12:14:16Z)
Where Paths Collide: A Comprehensive Survey of Classic and Learning-Based Multi-Agent Pathfinding [19.93293239540926]
MAPF(Multi-Agent Path Finding)は、人工知能とロボット工学の基本的な問題である。この調査は、MAPF研究における古典的アルゴリズムアプローチと新たな学習手法との長年の隔たりを橋渡しする。
論文参考訳（メタデータ） (2025-05-25T16:28:06Z)
RAILGUN: A Unified Convolutional Policy for Multi-Agent Path Finding Across Different Environments and Tasks [17.17370365888357]
Multi-Agent Path Finding (MAPF) は、空中スワムから倉庫の自動化まで、様々な用途に欠かせない。我々はRAILGUNと呼ばれるMAPF問題に対する最初の集中型学習ベースのポリシーを開発した。 CNNベースのアーキテクチャを活用することで、RAILGUNはさまざまなマップをまたいで一般化し、任意の数のエージェントを処理することができる。
論文参考訳（メタデータ） (2025-03-04T20:35:20Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文参考訳（メタデータ） (2025-02-03T18:35:42Z)
Multi-Agent Motion Planning For Differential Drive Robots Through Stationary State Search [5.9176395108304805]
MAMP(Multi-Agent Motion Planning)は、交通管理、空港の運営、倉庫の自動化など、様々な分野で応用されている。本稿では,これらの課題に対処するため,MASSと呼ばれる3段階のフレームワークを提案する。 MASSはMAPFベースの手法と定常状態探索プランナを組み合わせることで,高品質なキノダイナミックな計画を生成する。
論文参考訳（メタデータ） (2024-12-17T22:17:42Z)
FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-09-25T03:15:17Z)
Towards Open-World Mobile Manipulation in Homes: Lessons from the Neurips 2023 HomeRobot Open Vocabulary Mobile Manipulation Challenge [93.4434417387526]
ロボット工学における鍵となるベンチマークタスクとして,Open Vocabulary Mobile Manipulationを提案する。我々は,この課題に対する解決策を評価するために,シミュレーションと実世界のコンポーネントを兼ね備えたNeurIPS 2023コンペティションを組織した。シミュレーションと実環境設定の両方で使用される結果と方法論を詳述する。
論文参考訳（メタデータ） (2024-07-09T15:15:01Z)
LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning [91.95362946266577]
経路計画はロボット工学と自律航法における基本的な科学的問題である。 A*やその変種のような伝統的なアルゴリズムは、パスの妥当性を保証することができるが、状態空間が大きくなるにつれて、計算とメモリの非効率が著しく低下する。本稿では, A* の正確なパスフィニング能力と LLM のグローバルな推論能力とを相乗的に組み合わせた LLM ベースの経路計画法を提案する。このハイブリッドアプローチは、特に大規模シナリオにおいて、パス妥当性の完全性を維持しながら、時間と空間の複雑さの観点からパスフィニング効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-06-20T01:24:30Z)
MGCBS: An Optimal and Efficient Algorithm for Solving Multi-Goal Multi-Agent Path Finding Problem [5.580214316179672]
MG-MAPF問題は、各エージェントが少なくとも1回は衝突することなく、予め割り当てられた複数のゴールポイントを訪問する必要がある。そこで本研究では,単一エージェントパスフィンディング(Single-Adnt pathfinding)とセーフ区間探索(Single-Adnt pathfinding)の分離に基づくMulti-Goal Conflict-Based Search (MGCBS)を提案する。提案手法は, 常に最適な結果を得ることができ, 評価において最先端の手法よりも最大7倍高速に実行することができる。
論文参考訳（メタデータ） (2024-04-30T12:49:54Z)
Scaling Lifelong Multi-Agent Path Finding to More Realistic Settings: Research Challenges and Opportunities [44.292720085661585]
我々は2023年のLMAPFコンペティションに勝利のアプローチを提示する。最初の課題は、限られた計画時間内で高品質なLMAPFソリューションを探すことである。第2の課題は、LMAPFアルゴリズムにおける筋萎縮と行動の影響を緩和することである。第3の課題は、文学と現実世界の応用で使用されるLMAPFモデルのギャップを埋めることである。
論文参考訳（メタデータ） (2024-04-24T19:37:18Z)
Adaptive Anytime Multi-Agent Path Finding Using Bandit-Based Large Neighborhood Search [30.364955687049292]
MAPFはLarge Neborhood Search(LNS)に基づいている探索を併用したBandit-based Adaptive LArge Neighborhood Search(BALANCE)を提案する。大規模シナリオでは、最先端のMAPFと比較して、少なくとも50%のコスト改善が実証的に実証されている。
論文参考訳（メタデータ） (2023-12-28T01:24:42Z)
Multi-Robot Path Planning Combining Heuristics and Multi-Agent Reinforcement Learning [0.0]
移動過程においては、移動距離を最小化しながら他の移動ロボットとの衝突を避ける必要がある。従来の方法では、競合を避けるために探索手法を用いて経路を継続的に再設計するか、学習アプローチに基づいた衝突回避戦略を選択するかのどちらかである。本稿では,探索,経験則,マルチエージェント強化学習を組み合わせた経路計画手法MAPPOHRを提案する。
論文参考訳（メタデータ） (2023-06-02T05:07:37Z)
Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。本研究では, MRL の頑健な目標を制御レベルで定義する。ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文参考訳（メタデータ） (2023-01-26T14:54:39Z)
Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time Multi-Robot Cooperative Exploration [16.681164058779146]
本稿では,複数のロボットが,未知の領域をできるだけ早く探索する必要がある,協調探索の課題について考察する。既存のMARLベースの手法では、すべてのエージェントが完全に同期的に動作していると仮定して、探索効率の指標としてアクション作成ステップを採用している。本稿では,非同期MARLソリューションであるAsynchronous Coordination Explorer (ACE)を提案する。
論文参考訳（メタデータ） (2023-01-09T14:53:38Z)
Graph-Based Multi-Robot Path Finding and Planning [3.4260993997836753]
複数のロボットの衝突のない経路を計画することは、現実のマルチロボットシステムにとって重要である。近年の進歩により、何百ものロボットの衝突のない経路を計算できるMAPFアルゴリズムが実現されている。
論文参考訳（メタデータ） (2022-06-22T18:47:00Z)
Reinforcement Learning for Branch-and-Bound Optimisation using Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。我々は現在最先端のRL分岐アルゴリズムを3～5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文参考訳（メタデータ） (2022-05-28T06:08:07Z)
Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-09T08:47:58Z)
Compilation-based Solvers for Multi-Agent Path Finding: a Survey, Discussion, and Future Opportunities [7.766921168069532]
このトピックの過去の発展と現在の傾向から学んだ教訓を示し、その広範な影響について議論します。最適MAPF解決のための2つの主要なアプローチは、(1)MAPFを直接解決する専用の検索ベース手法、(2)MAPFインスタンスを異なる確立された形式でインスタンスに還元するコンパイルベース手法である。
論文参考訳（メタデータ） (2021-04-23T20:13:12Z)
POMP: Pomcp-based Online Motion Planning for active visual search in indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文参考訳（メタデータ） (2020-09-17T08:23:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。