Fugu-MT 論文翻訳(概要): End-to-end Reinforcement Learning for Online Coverage Path Planning in Unknown Environments

論文の概要: End-to-end Reinforcement Learning for Online Coverage Path Planning in Unknown Environments

arxiv url: http://arxiv.org/abs/2306.16978v1
Date: Thu, 29 Jun 2023 14:32:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-30 13:09:38.393468
Title: End-to-end Reinforcement Learning for Online Coverage Path Planning in Unknown Environments
Title（参考訳）: 未知環境におけるオンライン被覆経路計画のためのエンドツーエンド強化学習
Authors: Arvi Jonnarth, Jie Zhao, Michael Felsberg
Abstract要約: 被覆経路計画は、与えられた制限領域の自由空間全体をカバーする最も短い経路を見つける問題である。本研究では、連続状態と行動空間におけるエンドツーエンドの強化学習に基づくアプローチを提案する。
参考スコア（独自算出の注目度）: 19.602744702707234
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Coverage path planning is the problem of finding the shortest path that covers the entire free space of a given confined area, with applications ranging from robotic lawn mowing and vacuum cleaning, to demining and search-and-rescue tasks. While offline methods can find provably complete, and in some cases optimal, paths for known environments, their value is limited in online scenarios where the environment is not known beforehand, especially in the presence of non-static obstacles. We propose an end-to-end reinforcement learning-based approach in continuous state and action space, for the online coverage path planning problem that can handle unknown environments. We construct the observation space from both global maps and local sensory inputs, allowing the agent to plan a long-term path, and simultaneously act on short-term obstacle detections. To account for large-scale environments, we propose to use a multi-scale map input representation. Furthermore, we propose a novel total variation reward term for eliminating thin strips of uncovered space in the learned path. To validate the effectiveness of our approach, we perform extensive experiments in simulation with a distance sensor, surpassing the performance of a recent reinforcement learning-based approach.
Abstract（参考訳）: カバレッジパスプランニングは、与えられた制限領域のフリースペース全体をカバーする最短経路を見つけるための問題であり、ロボット芝刈りや掃除機、デミングや検索・検索といった応用がある。オフラインメソッドは、確実に完了し、場合によっては、既知の環境に最適なパスを見つけることができるが、その価値は、環境が事前に知られていないオンラインシナリオ、特に静的な障害が存在する場合に限定される。本研究では、未知環境に対処可能なオンラインカバレッジパス計画問題に対して、連続状態と行動空間におけるエンドツーエンド強化学習に基づくアプローチを提案する。我々は,グローバルマップと局所感覚入力の両方から観測空間を構築し,エージェントが長期経路を計画できるようにし,同時に短期的障害物検出を行う。大規模環境を考慮したマルチスケールマップ入力表現を提案する。さらに,学習経路における露光空間の薄片を除去するための,新しい総変動報酬項を提案する。提案手法の有効性を検証するため,最近の強化学習に基づく手法の性能を上回って,距離センサを用いたシミュレーション実験を行った。

関連論文リスト

Self-Supervised Learning-Based Path Planning and Obstacle Avoidance Using PPO and B-Splines in Unknown Environments [0.0]
Smart BSPは、自律ロボット工学におけるリアルタイムパス計画と障害物回避のための高度な自己教師型学習フレームワークである。提案システムは,PPO(Proximal Policy Optimization)と畳み込みニューラルネットワーク(Convolutional Neural Networks, CNN)とActor-Criticアーキテクチャを統合する。トレーニングプロセス中に、経路曲率、終端近接、障害物回避を考慮に入れたニュアンスコスト関数を最小化する。
論文参考訳（メタデータ） (2024-12-03T05:20:29Z)
SCoTT: Wireless-Aware Path Planning with Vision Language Models and Strategic Chains-of-Thought [78.53885607559958]
複雑な無線環境における経路計画を実現するために,視覚言語モデル(VLM)を用いた新しい手法を提案する。この目的のために、実世界の無線レイトレーシングデータを用いたデジタルツインからの洞察を探索する。その結果, SCoTT はDP-WA* と比較して非常に近い平均経路ゲインを実現し, 同時に一貫した経路長が得られることがわかった。
論文参考訳（メタデータ） (2024-11-27T10:45:49Z)
LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning [91.95362946266577]
経路計画はロボット工学と自律航法における基本的な科学的問題である。 A*やその変種のような伝統的なアルゴリズムは、パスの妥当性を保証することができるが、状態空間が大きくなるにつれて、計算とメモリの非効率が著しく低下する。本稿では, A* の正確なパスフィニング能力と LLM のグローバルな推論能力とを相乗的に組み合わせた LLM ベースの経路計画法を提案する。このハイブリッドアプローチは、特に大規模シナリオにおいて、パス妥当性の完全性を維持しながら、時間と空間の複雑さの観点からパスフィニング効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-06-20T01:24:30Z)
Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning [22.077058792635313]
被覆経路計画は、制限された地域の自由空間全体をカバーする経路を見つける問題である。本稿では,この課題に対する連続空間強化学習の有効性について検討する。提案手法は従来のRLに基づく手法と高度に専門化された手法の両方の性能を上回ることを示す。
論文参考訳（メタデータ） (2024-06-07T13:24:19Z)
Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。 ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文参考訳（メタデータ） (2024-02-29T15:36:01Z)
Learning to Recharge: UAV Coverage Path Planning through Deep Reinforcement Learning [5.475990395948956]
カバー・パス・プランニング(CPP)は、ロボット工学において重要な問題であり、目的は、ある分野のすべてのポイントをカバーする効率的なパスを見つけることである。本研究は、電池限定無人航空機(UAV)の充電に伴う電力制約CPP問題に対処する。本稿では,地図を用いた深部強化学習(DRL)手法を提案する。
論文参考訳（メタデータ） (2023-09-06T16:55:11Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
Offline Stochastic Shortest Path: Learning, Evaluation and Towards Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文参考訳（メタデータ） (2022-06-10T07:44:56Z)
Neural Motion Planning for Autonomous Parking [6.1805402105389895]
本稿では,より深い生成ネットワークと従来の動き計画手法を組み合わせたハイブリッドな動き計画手法を提案する。提案手法は与えられた状態の表現を効果的に学習し,アルゴリズムの性能向上を示す。
論文参考訳（メタデータ） (2021-11-12T14:29:38Z)
Reinforcement Learning-Based Coverage Path Planning with Implicit Cellular Decomposition [5.2424255020469595]
本稿では,カバレッジ問題を体系的に解析し,最適な停止時間問題として定式化する。本研究では,強化学習に基づくアルゴリズムが,未知の屋内環境を効果的にカバーしていることを示す。
論文参考訳（メタデータ） (2021-10-18T05:18:52Z)
Adaptive Informative Path Planning Using Deep Reinforcement Learning for UAV-based Active Sensing [2.6519061087638014]
深層強化学習(RL)に基づく情報経路計画のための新しい手法を提案する。本手法は,モンテカルロ木探索とオフライン学習ニューラルネットワークを組み合わせた情報知覚行動の予測を行う。ミッション中にトレーニングされたネットワークをデプロイすることにより、限られた計算資源を持つ物理プラットフォーム上で、サンプル効率の良いオンラインリプランニングが可能になる。
論文参考訳（メタデータ） (2021-09-28T09:00:55Z)
Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。 D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文参考訳（メタデータ） (2021-02-23T15:33:57Z)
Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。本手法は,逆強化学習問題の誤った性質に対処する。本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文参考訳（メタデータ） (2021-02-12T12:32:02Z)
Flexible and Efficient Long-Range Planning Through Curious Exploration [13.260508939271764]
The Curious Sample Planner can realize temporallyextended plan for a wide range of really 3D task。対照的に、標準的な計画と学習の方法は、多くの場合、これらのタスクを全く解決しなかったり、膨大な数のトレーニングサンプルでのみ実行できなかったりします。
論文参考訳（メタデータ） (2020-04-22T21:47:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。