論文の概要: Sequence Pathfinder for Multi-Agent Pickup and Delivery in the Warehouse
- arxiv url: http://arxiv.org/abs/2509.23778v2
- Date: Tue, 30 Sep 2025 12:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.868489
- Title: Sequence Pathfinder for Multi-Agent Pickup and Delivery in the Warehouse
- Title(参考訳): 倉庫におけるマルチエージェントピックアップと配送のためのシーケンスパスファインダ
- Authors: Zeyuan Zhao, Chaoran Li, Shao Zhang, Ying Wen,
- Abstract要約: Multi-Agent Pickup and Delivery (MAPD) は Multi-Agent Path Finding (MAPF) の挑戦的拡張である
コミュニケーション学習は、グローバルな情報の欠如を緩和するが、ポイントツーポイント通信による高い計算複雑性をもたらす。
本稿では,暗黙的な情報交換を実現するためのシークエンシャルパスファインダ(SePar)を提案する。
- 参考スコア(独自算出の注目度): 10.576983033957953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Agent Pickup and Delivery (MAPD) is a challenging extension of Multi-Agent Path Finding (MAPF), where agents are required to sequentially complete tasks with fixed-location pickup and delivery demands. Although learning-based methods have made progress in MAPD, they often perform poorly in warehouse-like environments with narrow pathways and long corridors when relying only on local observations for distributed decision-making. Communication learning can alleviate the lack of global information but introduce high computational complexity due to point-to-point communication. To address this challenge, we formulate MAPF as a sequence modeling problem and prove that path-finding policies under sequence modeling possess order-invariant optimality, ensuring its effectiveness in MAPD. Building on this, we propose the Sequential Pathfinder (SePar), which leverages the Transformer paradigm to achieve implicit information exchange, reducing decision-making complexity from exponential to linear while maintaining efficiency and global awareness. Experiments demonstrate that SePar consistently outperforms existing learning-based methods across various MAPF tasks and their variants, and generalizes well to unseen environments. Furthermore, we highlight the necessity of integrating imitation learning in complex maps like warehouses.
- Abstract(参考訳): MAPD(Multi-Agent Pickup and Delivery)は、MAPF(Multi-Agent Path Finding)の挑戦的な拡張である。
学習に基づく手法はMAPDにおいて進歩しているが、分散意思決定のローカルな観察のみに依存する場合、狭い経路と長い廊下を持つ倉庫のような環境では、しばしば不十分に機能する。
コミュニケーション学習は、グローバルな情報の欠如を緩和するが、ポイントツーポイント通信による高い計算複雑性をもたらす。
この課題に対処するために、MAPFをシーケンスモデリング問題として定式化し、シーケンスモデリングに基づくパスフィニングポリシーが順序不変の最適性を持ち、MAPDにおけるその有効性を保証することを証明する。
そこで我々は,Sequential Pathfinder(SePar)を提案し,Transformerのパラダイムを利用して暗黙的な情報交換を実現し,効率とグローバルな認識を維持しつつ,意思決定の複雑さを指数関数から線形に減らした。
実験により、SeParはさまざまなMAPFタスクとその変種にまたがって既存の学習ベースのメソッドを一貫して上回り、目に見えない環境によく一般化することを示した。
さらに,倉庫のような複雑な地図に模倣学習を統合する必要性を強調した。
関連論文リスト
- MAPF-World: Action World Model for Multi-Agent Path Finding [17.847921829680576]
マルチエージェントパス探索(MAPF)は、指定された開始地点から複数のエージェントのゴール位置までの競合のない経路を計画する問題である。
近年の分散学習可能解法は大規模MAPFに大いに期待されている。
本研究では,MAPFの自己回帰行動世界モデルであるMAPF-Worldを提案する。
論文 参考訳(メタデータ) (2025-08-16T15:50:26Z) - Combining Planning and Reinforcement Learning for Solving Relational Multiagent Domains [16.56659112347106]
MARL(Multiagent Reinforcement Learning)は、状態空間と行動空間の指数的成長によって大きな課題を提起する。
本稿では,効率的な状態抽象化と強化学習を備えた集中型コントローラとしてリレーショナルプランナを統合することを提案する。
論文 参考訳(メタデータ) (2025-02-26T16:55:23Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Multi-Agent Path Finding in Continuous Spaces with Projected Diffusion Models [57.45019514036948]
MAPF(Multi-Agent Path Finding)は、ロボット工学における基本的な問題である。
連続空間におけるMAPFの拡散モデルと制約付き最適化を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T21:27:19Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Model-free Motion Planning of Autonomous Agents for Complex Tasks in
Partially Observable Environments [3.7660066212240753]
部分的に知られている環境での自律エージェントの動作計画は難しい問題である。
本稿では,モデルのない強化学習手法を提案する。
提案手法は, 環境, 行動, 観測の不確実性に効果的に対処できることを示す。
論文 参考訳(メタデータ) (2023-04-30T19:57:39Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。