論文の概要: Learning-guided Prioritized Planning for Lifelong Multi-Agent Path Finding in Warehouse Automation
- arxiv url: http://arxiv.org/abs/2603.23838v1
- Date: Wed, 25 Mar 2026 01:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.083624
- Title: Learning-guided Prioritized Planning for Lifelong Multi-Agent Path Finding in Warehouse Automation
- Title(参考訳): 倉庫自動化における生涯マルチエージェントパスの学習誘導優先計画
- Authors: Han Zheng, Yining Ma, Brandon Araki, Jingkai Chen, Cathy Wu,
- Abstract要約: 本稿では,RLと生涯MAPFの検索ベースプランニングを統合した最初のフレームワークであるRL-RH-PPについて紹介する。
RL-RH-PPは、複雑な時空間相互作用を委譲して強化学習を行いながら、生涯計画のシーケンシャルな意思決定性を利用する。
解析の結果,RL-RH-PPは密閉剤を積極的に優先し,密閉剤を戦略的にリダイレクトすることが明らかとなった。
- 参考スコア(独自算出の注目度): 9.791100984803219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lifelong Multi-Agent Path Finding (MAPF) is critical for modern warehouse automation, which requires multiple robots to continuously navigate conflict-free paths to optimize the overall system throughput. However, the complexity of warehouse environments and the long-term dynamics of lifelong MAPF often demand costly adaptations to classical search-based solvers. While machine learning methods have been explored, their superiority over search-based methods remains inconclusive. In this paper, we introduce Reinforcement Learning (RL) guided Rolling Horizon Prioritized Planning (RL-RH-PP), the first framework integrating RL with search-based planning for lifelong MAPF. Specifically, we leverage classical Prioritized Planning (PP) as a backbone for its simplicity and flexibility in integrating with a learning-based priority assignment policy. By formulating dynamic priority assignment as a Partially Observable Markov Decision Process (POMDP), RL-RH-PP exploits the sequential decision-making nature of lifelong planning while delegating complex spatial-temporal interactions among agents to reinforcement learning. An attention-based neural network autoregressively decodes priority orders on-the-fly, enabling efficient sequential single-agent planning by the PP planner. Evaluations in realistic warehouse simulations show that RL-RH-PP achieves the highest total throughput among baselines and generalizes effectively across agent densities, planning horizons, and warehouse layouts. Our interpretive analyses reveal that RL-RH-PP proactively prioritizes congested agents and strategically redirects agents from congestion, easing traffic flow and boosting throughput. These findings highlight the potential of learning-guided approaches to augment traditional heuristics in modern warehouse automation.
- Abstract(参考訳): Lifelong Multi-Agent Path Finding (MAPF)は、現代の倉庫自動化において重要であり、システム全体のスループットを最適化するためには、複数のロボットがコンフリクトフリーパスを継続的にナビゲートする必要がある。
しかし、倉庫環境の複雑さと生涯にわたるMAPFの長期的ダイナミクスは、しばしば古典的な検索ベースの解法にコストがかかることを要求している。
機械学習手法が研究されているが、検索に基づく手法よりもその優位性は決定的ではない。
本稿では,ローリング水平優先計画(RL-RH-PP)を指導する強化学習(RL)について紹介する。
具体的には,古典的優先順位付け計画(PP)を,学習に基づく優先順位付けポリシの統合において,その単純さと柔軟性のバックボーンとして活用する。
RL-RH-PPは、部分観測可能なマルコフ決定過程(POMDP)として動的優先度の割り当てを定式化することにより、強化学習のためのエージェント間の複雑な時空間相互作用をデリゲートしながら、生涯計画のシーケンシャルな決定性を利用する。
注目ベースのニューラルネットワークは、優先度をオンザフライで自動的にデコードし、PPプランナーによる効率的なシーケンシャルな単一エージェント計画を可能にする。
現実的な倉庫シミュレーションでは,RL-RH-PPはベースライン間で高いスループットを達成し,エージェント密度,計画地平線,倉庫レイアウトを効果的に一般化している。
分析の結果,RL-RH-PPは混雑するエージェントを積極的に優先順位付けし,渋滞からエージェントを戦略的にリダイレクトし,交通の流れを緩和し,スループットを向上することがわかった。
これらの知見は、現代の倉庫自動化における従来のヒューリスティックスを強化するための学習誘導アプローチの可能性を強調している。
関連論文リスト
- Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Reinforcement Learning Foundations for Deep Research Systems: A Survey [31.57262766437479]
この調査は、深層研究システムのRL基盤に初めて焦点をあてたものである。
i)データ合成とキュレーション、(ii)安定度、サンプル効率、長期コンテキストハンドリング、報酬と信用設計、多目的最適化、マルチモーダル統合に関するエージェント研究のためのRL法である。
我々は、繰り返しパターン、表面インフラストラクチャボトルネックを蒸留し、RLを用いた堅牢で透明な深層研究エージェントのトレーニングのための実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-08T14:27:23Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Multi-agent Path Finding for Timed Tasks using Evolutionary Games [1.3023548510259344]
我々のアルゴリズムは,少なくとも1桁の精度で深部RL法よりも高速であることを示す。
以上の結果から,他の方法と比較してエージェント数の増加にともなってスケールが向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-15T20:10:25Z) - Diffusion-Reinforcement Learning Hierarchical Motion Planning in Multi-agent Adversarial Games [6.532258098619471]
環境データに応答するグローバルパスを計画するために,高レベル拡散モデルを統合する階層型アーキテクチャを提案する。
提案手法は,検出率と目標到達率において77.18%,47.38%のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-03-16T03:53:55Z) - Learn to Follow: Decentralized Lifelong Multi-agent Pathfinding via
Planning and Learning [46.354187895184154]
マルチエージェントパスフィンディング(MAPF)問題は通常、グラフに制限されたエージェントの集合に対する競合のないパスの集合を見つけるよう要求する。
本研究では,エージェントの位置や目標に関する情報をすべて収集する中央制御器が存在しない場合の分散MAPF設定について検討する。
我々は,先行するエージェントに新たな目標を連続的に割り当てることを含むMAPFの実用上重要な寿命変化に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-02T13:51:32Z) - PEAR: Primitive Enabled Adaptive Relabeling for Boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。