論文の概要: Scalable Hierarchical Reinforcement Learning for Hyper Scale Multi-Robot Task Planning
- arxiv url: http://arxiv.org/abs/2412.19538v1
- Date: Fri, 27 Dec 2024 09:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:24:50.671665
- Title: Scalable Hierarchical Reinforcement Learning for Hyper Scale Multi-Robot Task Planning
- Title(参考訳): 大規模マルチロボットタスク計画のためのスケーラブル階層型強化学習
- Authors: Xuan Zhou, Xiang Shi, Lele Zhang, Chen Chen, Hongbo Li, Lin Ma, Fang Deng, Jie Chen,
- Abstract要約: RMFSにおける超大規模MRTPのための効率的な多段階HRLベースのマルチロボットタスクプランナを構築した。
最適性を確保するため、プランナーは集中型アーキテクチャで設計されているが、スケールアップと一般化の課題ももたらしている。
我々のプランナーは、最大200台のロボットと1000台の検索ラックでRMFSの超大規模MRTPインスタンスにスケールアップできる。
- 参考スコア(独自算出の注目度): 17.989467671223043
- License:
- Abstract: To improve the efficiency of warehousing system and meet huge customer orders, we aim to solve the challenges of dimension disaster and dynamic properties in hyper scale multi-robot task planning (MRTP) for robotic mobile fulfillment system (RMFS). Existing research indicates that hierarchical reinforcement learning (HRL) is an effective method to reduce these challenges. Based on that, we construct an efficient multi-stage HRL-based multi-robot task planner for hyper scale MRTP in RMFS, and the planning process is represented with a special temporal graph topology. To ensure optimality, the planner is designed with a centralized architecture, but it also brings the challenges of scaling up and generalization that require policies to maintain performance for various unlearned scales and maps. To tackle these difficulties, we first construct a hierarchical temporal attention network (HTAN) to ensure basic ability of handling inputs with unfixed lengths, and then design multi-stage curricula for hierarchical policy learning to further improve the scaling up and generalization ability while avoiding catastrophic forgetting. Additionally, we notice that policies with hierarchical structure suffer from unfair credit assignment that is similar to that in multi-agent reinforcement learning, inspired of which, we propose a hierarchical reinforcement learning algorithm with counterfactual rollout baseline to improve learning performance. Experimental results demonstrate that our planner outperform other state-of-the-art methods on various MRTP instances in both simulated and real-world RMFS. Also, our planner can successfully scale up to hyper scale MRTP instances in RMFS with up to 200 robots and 1000 retrieval racks on unlearned maps while keeping superior performance over other methods.
- Abstract(参考訳): 倉庫システムの効率化と膨大な顧客注文に対応するため,ロボットモバイルフルフィルメントシステム(RMFS)のための大規模マルチロボットタスク計画(MRTP)におけるディメンテーション災害と動的特性の課題を解決することを目的とする。
既存の研究は、階層的強化学習(HRL)がこれらの課題を減らす効果的な方法であることを示している。
そこで我々は,RMFSにおける超大規模MRTPのための効率的な多段階HRLベースのマルチロボットタスクプランナを構築し,その計画過程を特殊な時間グラフトポロジで表現する。
最適性を確保するため、プランナーは集中型アーキテクチャで設計されているが、様々な未学習のスケールとマップのパフォーマンスを維持するためにポリシーを必要とするスケールアップと一般化の課題ももたらしている。
これらの課題に対処するために、まず階層的時間的注意ネットワーク(HTAN)を構築し、未固定長で入力を処理する基本的な能力を確保するとともに、階層的ポリシー学習のための多段階カリキュラムを設計し、破滅的な忘れ込みを回避しつつ、スケールアップと一般化の能力をさらに向上させる。
さらに, 階層構造をもつ政策は, マルチエージェント強化学習と類似した不公平な信用課題に悩まされていることに気付き, 反実的なロールアウトベースラインを持つ階層強化学習アルゴリズムを提案し, 学習性能の向上を図る。
実験結果から,シミュレーションおよび実世界のRMFSにおいて,MRTPインスタンス上での他の最先端手法よりも優れた性能を示した。
また,最大200台のロボットと1000台の検索ラックでRMFSの超大規模MRTPインスタンスのスケールアップに成功し,他の手法よりも優れた性能を維持した。
関連論文リスト
- Encoding Reusable Multi-Robot Planning Strategies as Abstract Hypergraphs [27.791001793093805]
マルチロボットタスクプランニング(Multi-Robot Task Planning、MR-TP)は、ロボットのチームがタスクを完了させるために行う離散アクションプランの探索である。
MR-TPの寿命を早めるために,本研究は最近の2つの進歩を組み合わせることを目的としている。
論文 参考訳(メタデータ) (2024-09-16T19:39:52Z) - Nl2Hltl2Plan: Scaling Up Natural Language Understanding for Multi-Robots Through Hierarchical Temporal Logic Task Representation [8.180994118420053]
Nl2Hltl2Planは自然言語コマンドを階層線形時間論理(LTL)に変換するフレームワーク
まず、LLMは命令を階層的なタスクツリーに変換し、論理的および時間的関係をキャプチャする。
次に、微調整されたLLMは、サブタスクをフラットな公式に変換し、階層的な仕様に集約する。
論文 参考訳(メタデータ) (2024-08-15T14:46:13Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Simple Hierarchical Planning with Diffusion [54.48129192534653]
拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。
階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。
我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
論文 参考訳(メタデータ) (2024-01-05T05:28:40Z) - Reinforcement Learning in Robotic Motion Planning by Combined
Experience-based Planning and Self-Imitation Learning [7.919213739992465]
高品質で代表的なデータは、Imitation Learning(IL)とReinforcement Learning(RL)ベースのモーションプランニングタスクに不可欠である。
本稿では,学習アーキテクチャに経験に基づくプランニングを組み込むSILP+アルゴリズムを提案する。
様々な実験結果から,SILP+は複雑な運動計画タスクにおいて,トレーニング効率が向上し,より安定した成功率が得られることが示された。
論文 参考訳(メタデータ) (2023-06-11T19:47:46Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Co-learning Planning and Control Policies Constrained by Differentiable
Logic Specifications [4.12484724941528]
本稿では,高次元ロボットナビゲーションタスクを解くための新しい強化学習手法を提案する。
既存の強化学習アルゴリズムと比較して、より少ないサンプルで高品質なポリシーを訓練する。
提案手法は,高次元制御と政策アライメントによる準最適政策の回避にも有効である。
論文 参考訳(メタデータ) (2023-03-02T15:24:24Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Hierarchies of Planning and Reinforcement Learning for Robot Navigation [22.08479169489373]
多くのナビゲーションタスクでは、粗いフロアプランのように、高レベル(HL)タスク表現が利用可能である。
これまでの研究は、HL表現における経路計画からなる階層的アプローチによる効率的な学習を実証してきた。
本研究はHL表現のためのトレーニング可能な計画ポリシーを利用する新しい階層的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-23T07:18:15Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。