論文の概要: Learning Coverage Paths in Unknown Environments with Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2306.16978v2
- Date: Fri, 13 Oct 2023 09:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 01:23:11.380831
- Title: Learning Coverage Paths in Unknown Environments with Reinforcement
Learning
- Title(参考訳): 強化学習による未知環境における被覆経路の学習
- Authors: Arvi Jonnarth, Jie Zhao, Michael Felsberg
- Abstract要約: この課題に対する強化学習の適性について検討する。
既存の古典的手法と比較して、このアプローチは柔軟な経路空間を可能にする。
本研究では,非被覆自由空間の小さな穴を残しないようにエージェントを誘導する,新しい全変動報酬項を提案する。
- 参考スコア(独自算出の注目度): 19.892847977626353
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Coverage path planning (CPP) is the problem of finding a path that covers the
entire free space of a confined area, with applications ranging from robotic
lawn mowing and vacuum cleaning, to demining and search-and-rescue tasks. While
offline methods can find provably complete, and in some cases optimal, paths
for known environments, their value is limited in online scenarios where the
environment is not known beforehand. In this case, the path needs to be planned
online while mapping the environment. We investigate how suitable reinforcement
learning is for this challenging problem, and analyze the involved components
required to efficiently learn coverage paths, such as action space, input
feature representation, neural network architecture, and reward function.
Compared to existing classical methods, this approach allows for a flexible
path space, and enables the agent to adapt to specific environment dynamics. In
addition to local sensory inputs for acting on short-term obstacle detections,
we propose to use egocentric maps in multiple scales based on frontiers. This
allows the agent to plan a long-term path in large-scale environments with
feasible computational and memory complexity. Furthermore, we propose a novel
total variation reward term for guiding the agent not to leave small holes of
non-covered free space. To validate the effectiveness of our approach, we
perform extensive experiments in simulation with a 2D ranging sensor on
different variations of the CPP problem, surpassing the performance of both
previous RL-based approaches and highly specialized methods.
- Abstract(参考訳): カバレッジパスプランニング(cpp)は、限定されたエリアのフリースペース全体をカバーするパスを見つけるための問題であり、ロボット芝刈りや掃除機、デミングや検索・検索といった応用がある。
オフラインメソッドは確実に完了し、場合によっては既知の環境に最適なパスを見つけることができるが、その価値は、事前に環境が分かっていないオンラインシナリオで制限される。
この場合、環境をマッピングしながら、パスをオンラインで計画する必要があります。
本稿では,この課題に対する強化学習の適当性について検討し,アクション空間,入力特徴表現,ニューラルネットワークアーキテクチャ,報酬関数などのカバレッジパスを効率的に学習するために必要なコンポーネントを分析した。
従来の手法と比較して、このアプローチは柔軟な経路空間を可能にし、エージェントが特定の環境力学に適応できるようにする。
短期的障害物検出に作用する局所感覚入力に加えて,フロンティアに基づく多尺度のエゴセントリックマップの利用を提案する。
これにより、エージェントは計算とメモリの複雑さが実現可能な大規模環境で長期の経路を計画できる。
さらに,非被覆自由空間の小さな穴を残しないようにエージェントを導くための,新しい総変動報酬項を提案する。
提案手法の有効性を検証するため,従来のRL法と高度に専門化された手法の両方の性能を超越して,CPP問題の違いに対する2次元レンジングセンサを用いたシミュレーション実験を行った。
関連論文リスト
- LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning [91.95362946266577]
経路計画はロボット工学と自律航法における基本的な科学的問題である。
A*やその変種のような伝統的なアルゴリズムは、パスの妥当性を保証することができるが、状態空間が大きくなるにつれて、計算とメモリの非効率が著しく低下する。
本稿では, A* の正確なパスフィニング能力と LLM のグローバルな推論能力とを相乗的に組み合わせた LLM ベースの経路計画法を提案する。
このハイブリッドアプローチは、特に大規模シナリオにおいて、パス妥当性の完全性を維持しながら、時間と空間の複雑さの観点からパスフィニング効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-06-20T01:24:30Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Learning to Recharge: UAV Coverage Path Planning through Deep
Reinforcement Learning [5.475990395948956]
カバー・パス・プランニング(CPP)は、ロボット工学において重要な問題であり、目的は、ある分野のすべてのポイントをカバーする効率的なパスを見つけることである。
本研究は、電池限定無人航空機(UAV)の充電に伴う電力制約CPP問題に対処する。
本稿では,地図を用いた深部強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2023-09-06T16:55:11Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Neural Motion Planning for Autonomous Parking [6.1805402105389895]
本稿では,より深い生成ネットワークと従来の動き計画手法を組み合わせたハイブリッドな動き計画手法を提案する。
提案手法は与えられた状態の表現を効果的に学習し,アルゴリズムの性能向上を示す。
論文 参考訳(メタデータ) (2021-11-12T14:29:38Z) - Reinforcement Learning-Based Coverage Path Planning with Implicit
Cellular Decomposition [5.2424255020469595]
本稿では,カバレッジ問題を体系的に解析し,最適な停止時間問題として定式化する。
本研究では,強化学習に基づくアルゴリズムが,未知の屋内環境を効果的にカバーしていることを示す。
論文 参考訳(メタデータ) (2021-10-18T05:18:52Z) - Adaptive Informative Path Planning Using Deep Reinforcement Learning for
UAV-based Active Sensing [2.6519061087638014]
深層強化学習(RL)に基づく情報経路計画のための新しい手法を提案する。
本手法は,モンテカルロ木探索とオフライン学習ニューラルネットワークを組み合わせた情報知覚行動の予測を行う。
ミッション中にトレーニングされたネットワークをデプロイすることにより、限られた計算資源を持つ物理プラットフォーム上で、サンプル効率の良いオンラインリプランニングが可能になる。
論文 参考訳(メタデータ) (2021-09-28T09:00:55Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - Flexible and Efficient Long-Range Planning Through Curious Exploration [13.260508939271764]
The Curious Sample Planner can realize temporallyextended plan for a wide range of really 3D task。
対照的に、標準的な計画と学習の方法は、多くの場合、これらのタスクを全く解決しなかったり、膨大な数のトレーニングサンプルでのみ実行できなかったりします。
論文 参考訳(メタデータ) (2020-04-22T21:47:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。