論文の概要: Learning Coverage Paths in Unknown Environments with Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2306.16978v3
- Date: Fri, 9 Feb 2024 15:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 20:55:58.741838
- Title: Learning Coverage Paths in Unknown Environments with Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習による未知環境における被覆経路の学習
- Authors: Arvi Jonnarth, Jie Zhao, Michael Felsberg
- Abstract要約: 被覆経路計画 (CPP) は、制限された領域の自由空間全体をカバーする経路を見つける問題である。
この課題に対する強化学習の適性について検討する。
本稿では,フロンティアに基づく計算可能なエゴセントリックマップ表現と,全変動に基づく新たな報酬項を提案する。
- 参考スコア(独自算出の注目度): 19.892847977626353
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Coverage path planning (CPP) is the problem of finding a path that covers the
entire free space of a confined area, with applications ranging from robotic
lawn mowing to search-and-rescue. When the environment is unknown, the path
needs to be planned online while mapping the environment, which cannot be
addressed by offline planning methods that do not allow for a flexible path
space. We investigate how suitable reinforcement learning is for this
challenging problem, and analyze the involved components required to
efficiently learn coverage paths, such as action space, input feature
representation, neural network architecture, and reward function. We propose a
computationally feasible egocentric map representation based on frontiers, and
a novel reward term based on total variation to promote complete coverage.
Through extensive experiments, we show that our approach surpasses the
performance of both previous RL-based approaches and highly specialized methods
across multiple CPP variations.
- Abstract(参考訳): カバレッジパスプランニング(cpp)は、限定された地域の自由空間全体をカバーするパスを見つける問題であり、ロボット芝刈りから検索・検索まで幅広い応用がある。
環境が不明な場合には、環境マッピング中に経路をオンラインに計画する必要があり、柔軟性のあるパススペースを許可しないオフライン計画手法では対処できない。
本稿では,この課題に対する強化学習の適当性について検討し,アクション空間,入力特徴表現,ニューラルネットワークアーキテクチャ,報酬関数などのカバレッジパスを効率的に学習するために必要なコンポーネントを分析した。
本稿では,フロンティアに基づく計算可能なエゴセントリックマップ表現と,全変動に基づく新たな報酬項を提案する。
広範にわたる実験により,本手法は従来のRLに基づくアプローチと,複数のCPP変動にまたがる高度に特殊な手法の両方の性能を上回ることを示した。
関連論文リスト
- LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning [91.95362946266577]
経路計画はロボット工学と自律航法における基本的な科学的問題である。
A*やその変種のような伝統的なアルゴリズムは、パスの妥当性を保証することができるが、状態空間が大きくなるにつれて、計算とメモリの非効率が著しく低下する。
本稿では, A* の正確なパスフィニング能力と LLM のグローバルな推論能力とを相乗的に組み合わせた LLM ベースの経路計画法を提案する。
このハイブリッドアプローチは、特に大規模シナリオにおいて、パス妥当性の完全性を維持しながら、時間と空間の複雑さの観点からパスフィニング効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-06-20T01:24:30Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Learning to Recharge: UAV Coverage Path Planning through Deep
Reinforcement Learning [5.475990395948956]
カバー・パス・プランニング(CPP)は、ロボット工学において重要な問題であり、目的は、ある分野のすべてのポイントをカバーする効率的なパスを見つけることである。
本研究は、電池限定無人航空機(UAV)の充電に伴う電力制約CPP問題に対処する。
本稿では,地図を用いた深部強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2023-09-06T16:55:11Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Neural Motion Planning for Autonomous Parking [6.1805402105389895]
本稿では,より深い生成ネットワークと従来の動き計画手法を組み合わせたハイブリッドな動き計画手法を提案する。
提案手法は与えられた状態の表現を効果的に学習し,アルゴリズムの性能向上を示す。
論文 参考訳(メタデータ) (2021-11-12T14:29:38Z) - Reinforcement Learning-Based Coverage Path Planning with Implicit
Cellular Decomposition [5.2424255020469595]
本稿では,カバレッジ問題を体系的に解析し,最適な停止時間問題として定式化する。
本研究では,強化学習に基づくアルゴリズムが,未知の屋内環境を効果的にカバーしていることを示す。
論文 参考訳(メタデータ) (2021-10-18T05:18:52Z) - Adaptive Informative Path Planning Using Deep Reinforcement Learning for
UAV-based Active Sensing [2.6519061087638014]
深層強化学習(RL)に基づく情報経路計画のための新しい手法を提案する。
本手法は,モンテカルロ木探索とオフライン学習ニューラルネットワークを組み合わせた情報知覚行動の予測を行う。
ミッション中にトレーニングされたネットワークをデプロイすることにより、限られた計算資源を持つ物理プラットフォーム上で、サンプル効率の良いオンラインリプランニングが可能になる。
論文 参考訳(メタデータ) (2021-09-28T09:00:55Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - Flexible and Efficient Long-Range Planning Through Curious Exploration [13.260508939271764]
The Curious Sample Planner can realize temporallyextended plan for a wide range of really 3D task。
対照的に、標準的な計画と学習の方法は、多くの場合、これらのタスクを全く解決しなかったり、膨大な数のトレーニングサンプルでのみ実行できなかったりします。
論文 参考訳(メタデータ) (2020-04-22T21:47:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。