論文の概要: Scalable Multi-Robot Informative Path Planning for Target Mapping via Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.16967v3
- Date: Mon, 02 Jun 2025 19:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:08.89616
- Title: Scalable Multi-Robot Informative Path Planning for Target Mapping via Deep Reinforcement Learning
- Title(参考訳): 深部強化学習によるターゲットマッピングのためのスケーラブルなマルチロボットインフォーマティブパス計画
- Authors: Apoorva Vashisth, Manav Kulshrestha, Damon Conover, Aniket Bera,
- Abstract要約: マルチロボットインフォーマティブパス計画問題に対する深層強化学習手法を提案する。
ここでは、各ロボットが発見した目標を最大化し、未知の静的障害物を回避し、ロボット同士の衝突を防ぐ。
提案手法は、発見対象数において、最先端のアプローチを少なくとも26.2%上回っている。
- 参考スコア(独自算出の注目度): 11.134855513221359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous robots are widely utilized for mapping and exploration tasks due to their cost-effectiveness. Multi-robot systems offer scalability and efficiency, especially in terms of the number of robots deployed in more complex environments. These tasks belong to the set of Multi-Robot Informative Path Planning (MRIPP) problems. In this paper, we propose a deep reinforcement learning approach for the MRIPP problem. We aim to maximize the number of discovered stationary targets in an unknown 3D environment while operating under resource constraints (such as path length). Here, each robot aims to maximize discovered targets, avoid unknown static obstacles, and prevent inter-robot collisions while operating under communication and resource constraints. We utilize the centralized training and decentralized execution paradigm to train a single policy neural network. A key aspect of our approach is our coordination graph that prioritizes visiting regions not yet explored by other robots. Our learned policy can be copied onto any number of robots for deployment in more complex environments not seen during training. Our approach outperforms state-of-the-art approaches by at least 26.2% in terms of the number of discovered targets while requiring a planning time of less than 2 sec per step. We present results for more complex environments with up to 64 robots and compare success rates against baseline planners. Our code and trained model are available at - https://github.com/AccGen99/marl_ipp
- Abstract(参考訳): 自律ロボットはコスト効率のために地図作成や探索作業に広く利用されている。
マルチロボットシステムはスケーラビリティと効率性を提供し、特により複雑な環境で展開されるロボットの数を考慮に入れている。
これらのタスクは、MRIPP(Multi-Robot Informative Path Planning)問題の集合に属する。
本稿ではMRIPP問題に対する深層強化学習手法を提案する。
本研究の目的は,資源制約(経路長など)の下で動作しながら,未知の3次元環境下での静止目標数の最大化である。
そこで,各ロボットは,発見目標の最大化,未知の静的障害物の回避,通信や資源制約下でのロボット間衝突の防止を目的としている。
集中型トレーニングと分散実行パラダイムを利用して,単一ポリシニューラルネットワークをトレーニングする。
我々のアプローチの重要な側面は、他のロボットがまだ探索していない地域を優先する調整グラフである。
私たちの学習ポリシーは、トレーニング中に見えないより複雑な環境にデプロイするために、あらゆる種類のロボットにコピーできます。
提案手法は,1ステップあたり2秒未満の計画時間を必要とする一方で,発見目標数の観点からは,最先端のアプローチを少なくとも26.2%上回る。
我々は,最大64台のロボットを用いたより複雑な環境について,ベースラインプランナーとの成功率を比較した。
私たちのコードとトレーニングされたモデルは、https://github.com/AccGen99/marl_ippで利用可能です。
関連論文リスト
- Generalizability of Graph Neural Networks for Decentralized Unlabeled Motion Planning [72.86540018081531]
ラベルなしの動作計画では、衝突回避を確保しながら、ロボットのセットを目標の場所に割り当てる。
この問題は、探査、監視、輸送などの応用において、マルチロボットシステムにとって不可欠なビルディングブロックを形成している。
この問題に対処するために、各ロボットは、その400ドルのアネレストロボットと$k$アネレストターゲットの位置のみを知っている分散環境で対処する。
論文 参考訳(メタデータ) (2024-09-29T23:57:25Z) - Robotic warehousing operations: a learn-then-optimize approach to large-scale neighborhood search [84.39855372157616]
本稿では,ワークステーションの注文処理,アイテムポッドの割り当て,ワークステーションでの注文処理のスケジュールを最適化することで,ウェアハウジングにおけるロボット部品対ピッカー操作を支援する。
そこで我々は, 大規模近傍探索を用いて, サブプロブレム生成に対する学習を最適化する手法を提案する。
Amazon Roboticsと共同で、我々のモデルとアルゴリズムは、最先端のアプローチよりも、実用的な問題に対するより強力なソリューションを生み出していることを示す。
論文 参考訳(メタデータ) (2024-08-29T20:22:22Z) - Deep Reinforcement Learning with Dynamic Graphs for Adaptive Informative Path Planning [22.48658555542736]
ロボットデータ取得における重要な課題は、当初未知の環境を抜けて観測を収集する計画経路である。
そこで本研究では,未知の3D環境において,ロボット経路を適応的に計画し,対象をマップする深層強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:24:41Z) - Intention Aware Robot Crowd Navigation with Attention-Based Interaction
Graph [3.8461692052415137]
本研究では,高密度で対話的な群集における安全かつ意図に配慮したロボットナビゲーションの課題について検討する。
本稿では,エージェント間の異種相互作用を捕捉するアテンション機構を備えた新しいグラフニューラルネットワークを提案する。
提案手法は,群集ナビゲーションのシナリオにおいて,優れたナビゲーション性能と非侵襲性をロボットが実現できることを実証する。
論文 参考訳(メタデータ) (2022-03-03T16:26:36Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Large Scale Distributed Collaborative Unlabeled Motion Planning with
Graph Policy Gradients [122.85280150421175]
本研究では,運動制約と空間制約を多数のロボットに対して2次元空間で解くための学習法を提案する。
ロボットのポリシーをパラメータ化するためにグラフニューラルネットワーク(GNN)を用いる。
論文 参考訳(メタデータ) (2021-02-11T21:57:43Z) - Autonomous Navigation in Dynamic Environments: Deep Learning-Based
Approach [0.0]
本論文は,各スキームの長所と短所を浮き彫りにした深層学習に基づくアプローチを考察する。
畳み込みニューラルネットワーク(CNN)に基づくディープラーニング手法の1つは、ソフトウェア実装によって実現される。
本研究では, レーザースキャナの代わりに単眼カメラを使用するという基礎から, レストラン, 博物館などの屋内アプリケーションに対して, 低コストなアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-03T23:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。