論文の概要: Learning to Recharge: UAV Coverage Path Planning through Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.03157v2
- Date: Thu, 7 Sep 2023 18:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 09:12:35.190609
- Title: Learning to Recharge: UAV Coverage Path Planning through Deep
Reinforcement Learning
- Title(参考訳): チャージへの学習: 深層強化学習によるuavカバレッジパス計画
- Authors: Mirco Theile, Harald Bayerlein, Marco Caccamo, and Alberto L.
Sangiovanni-Vincentelli
- Abstract要約: カバー・パス・プランニング(CPP)は、ロボット工学において重要な問題であり、目的は、ある分野のすべてのポイントをカバーする効率的なパスを見つけることである。
本研究は、電池限定無人航空機(UAV)の充電に伴う電力制約CPP問題に対処する。
本稿では,地図を用いた深部強化学習(DRL)手法を提案する。
- 参考スコア(独自算出の注目度): 5.475990395948956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coverage path planning (CPP) is a critical problem in robotics, where the
goal is to find an efficient path that covers every point in an area of
interest. This work addresses the power-constrained CPP problem with recharge
for battery-limited unmanned aerial vehicles (UAVs). In this problem, a notable
challenge emerges from integrating recharge journeys into the overall coverage
strategy, highlighting the intricate task of making strategic, long-term
decisions. We propose a novel proximal policy optimization (PPO)-based deep
reinforcement learning (DRL) approach with map-based observations, utilizing
action masking and discount factor scheduling to optimize coverage trajectories
over the entire mission horizon. We further provide the agent with a position
history to handle emergent state loops caused by the recharge capability. Our
approach outperforms a baseline heuristic, generalizes to different target
zones and maps, with limited generalization to unseen maps. We offer valuable
insights into DRL algorithm design for long-horizon problems and provide a
publicly available software framework for the CPP problem.
- Abstract(参考訳): 被覆経路計画(CPP)は、ロボット工学において重要な問題であり、ある分野のすべての点をカバーする効率的な経路を見つけることが目的である。
本研究は、電池限定無人航空機(UAV)の充電に伴う電力制約のCPP問題に対処する。
この問題では、リチャージジャーニーを全般的なカバレッジ戦略に統合することから、戦略的、長期的な意思決定を行うという複雑な課題が浮かび上がっています。
本稿では,行動マスキングとディスカウント係数スケジューリングを応用し,ミッションホライズンズ全体にわたるカバレッジトラジェクタを最適化した,新しい近近政策最適化(ppo)に基づく深層強化学習(drl)手法を提案する。
さらに,リチャージ能力に起因する創発的状態ループを処理するための位置履歴をエージェントに提供する。
提案手法はベースラインヒューリスティックを上回り,異なる対象領域や地図に一般化し,目に見えない地図に限定的な一般化を行う。
我々は,長期的問題に対するDRLアルゴリズム設計に関する貴重な知見を提供し,CPP問題のためのソフトウェアフレームワークを提供する。
関連論文リスト
- Deep Reinforcement Learning for Traveling Purchaser Problems [63.37136587778153]
旅行購入問題(TPP)は幅広いアプリケーションにおいて重要な最適化問題である。
本稿では,ルート構築と購入計画を個別に扱う,深層強化学習(DRL)に基づく新しいアプローチを提案する。
メタラーニング戦略を導入することで、大規模なTPPインスタンス上で安定してポリシーネットワークをトレーニングすることができる。
論文 参考訳(メタデータ) (2024-04-03T05:32:10Z) - Learn to Follow: Decentralized Lifelong Multi-agent Pathfinding via
Planning and Learning [46.354187895184154]
マルチエージェントパスフィンディング(MAPF)問題は通常、グラフに制限されたエージェントの集合に対する競合のないパスの集合を見つけるよう要求する。
本研究では,エージェントの位置や目標に関する情報をすべて収集する中央制御器が存在しない場合の分散MAPF設定について検討する。
我々は,先行するエージェントに新たな目標を連続的に割り当てることを含むMAPFの実用上重要な寿命変化に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-02T13:51:32Z) - Learning Coverage Paths in Unknown Environments with Deep Reinforcement Learning [17.69984142788365]
被覆経路計画 (CPP) は、制限された領域の自由空間全体をカバーする経路を見つける問題である。
この課題に対する強化学習の適性について検討する。
本稿では,フロンティアに基づく計算可能なエゴセントリックマップ表現と,全変動に基づく新たな報酬項を提案する。
論文 参考訳(メタデータ) (2023-06-29T14:32:06Z) - Long-HOT: A Modular Hierarchical Approach for Long-Horizon Object
Transport [83.06265788137443]
我々は、時間的拡張ナビゲーションのための新しいオブジェクトトランスポートタスクと新しいモジュラーフレームワークを提案することで、長距離探査と航法を具現化する上で重要な課題に対処する。
私たちの最初の貢献は、深層探査と長期計画に焦点を当てた新しいLong-HOT環境の設計である。
重み付けされたフロンティアの助けを借りて探索を行うために,シーンのトポロジカルグラフを構築するモジュラー階層輸送ポリシー(HTP)を提案する。
論文 参考訳(メタデータ) (2022-10-28T05:30:49Z) - Intention-Aware Navigation in Crowds with Extended-Space POMDP Planning [5.01069065110753]
本稿では,Palially Observable Markov Decision Process (POMDP)計画システムについて述べる。
歩行者や障害物の密集した群集における自律走行の問題点を考察する。
我々は,POMDPプランナがより多くの自由度を制御できる,より有能で応答性の高いリアルタイムアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-20T22:26:14Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - Reinforcement Learning-Based Coverage Path Planning with Implicit
Cellular Decomposition [5.2424255020469595]
本稿では,カバレッジ問題を体系的に解析し,最適な停止時間問題として定式化する。
本研究では,強化学習に基づくアルゴリズムが,未知の屋内環境を効果的にカバーしていることを示す。
論文 参考訳(メタデータ) (2021-10-18T05:18:52Z) - Multi-UAV Path Planning for Wireless Data Harvesting with Deep
Reinforcement Learning [18.266087952180733]
本稿では,データ収集ミッションを定義するシナリオパラメータの深い変化に適応できるマルチエージェント強化学習(MARL)手法を提案する。
提案するネットワークアーキテクチャにより,データ収集タスクを慎重に分割することで,エージェントが効果的に協調できることを示す。
論文 参考訳(メタデータ) (2020-10-23T14:59:30Z) - UAV Path Planning using Global and Local Map Information with Deep
Reinforcement Learning [16.720630804675213]
本研究は, 深部強化学習(DRL)に基づく自律型UAV経路計画法を提案する。
我々は、UAVの目標は、データ収集(DH)への関心領域を調査することであり、UAVは分散IoT(Internet of Things)センサーデバイスからデータを収集することである。
環境の構造化マップ情報を活用することで、異なるミッションシナリオで同一のアーキテクチャを持つ二重深度Q-networks(DDQN)を訓練する。
論文 参考訳(メタデータ) (2020-10-14T09:59:10Z) - Learning to Track Dynamic Targets in Partially Known Environments [48.49957897251128]
我々は、アクティブな目標追跡を解決するために、深層強化学習アプローチを用いる。
特に,アクティブ・トラッカー・ターゲティング・ネットワーク(ATTN)を導入し,アクティブ・ターゲティング・ターゲティングの主要なタスクを解決するための統一的なRLポリシーを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:45:24Z) - Data Freshness and Energy-Efficient UAV Navigation Optimization: A Deep
Reinforcement Learning Approach [88.45509934702913]
我々は、移動基地局(BS)が配備される複数の無人航空機(UAV)のナビゲーションポリシーを設計する。
我々は、地上BSにおけるデータの鮮度を確保するために、エネルギーや情報年齢(AoI)の制約などの異なる文脈情報を組み込んだ。
提案したトレーニングモデルを適用することで、UAV-BSに対する効果的なリアルタイム軌道ポリシーは、時間とともに観測可能なネットワーク状態をキャプチャする。
論文 参考訳(メタデータ) (2020-02-21T07:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。