論文の概要: Deep Reinforcement Learning for Adaptive Exploration of Unknown
Environments
- arxiv url: http://arxiv.org/abs/2105.01606v1
- Date: Tue, 4 May 2021 16:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 12:51:41.457669
- Title: Deep Reinforcement Learning for Adaptive Exploration of Unknown
Environments
- Title(参考訳): 未知環境の適応探索のための深層強化学習
- Authors: Ashley Peake, Joe McCalmon, Yixin Zhang, Daniel Myers, Sarra
Alqahtani, Paul Pauca
- Abstract要約: 私達はUAVのための1つのステップで調査および搾取間のトレードオフに適応的な調査のアプローチを開発します。
提案手法では, 環境マップを小型でトラクタブルな地図に分解するために, マップセグメンテーション手法を用いる。
その結果,本提案手法は,ランダムに生成された環境をナビゲートし,ベースラインと比較してAoIを短時間でカバーできることが示された。
- 参考スコア(独自算出の注目度): 6.90777229452271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performing autonomous exploration is essential for unmanned aerial vehicles
(UAVs) operating in unknown environments. Often, these missions start with
building a map for the environment via pure exploration and subsequently using
(i.e. exploiting) the generated map for downstream navigation tasks.
Accomplishing these navigation tasks in two separate steps is not always
possible or even disadvantageous for UAVs deployed in outdoor and dynamically
changing environments. Current exploration approaches either use a priori
human-generated maps or use heuristics such as frontier-based exploration.
Other approaches use learning but focus only on learning policies for specific
tasks by either using sample inefficient random exploration or by making
impractical assumptions about full map availability. In this paper, we develop
an adaptive exploration approach to trade off between exploration and
exploitation in one single step for UAVs searching for areas of interest (AoIs)
in unknown environments using Deep Reinforcement Learning (DRL). The proposed
approach uses a map segmentation technique to decompose the environment map
into smaller, tractable maps. Then, a simple information gain function is
repeatedly computed to determine the best target region to search during each
iteration of the process. DDQN and A2C algorithms are extended with a stack of
LSTM layers and trained to generate optimal policies for the exploration and
exploitation, respectively. We tested our approach in 3 different tasks against
4 baselines. The results demonstrate that our proposed approach is capable of
navigating through randomly generated environments and covering more AoI in
less time steps compared to the baselines.
- Abstract(参考訳): 無人航空機(uav)の無人探査は未知の環境での運用には不可欠である。
多くの場合、これらのミッションは純粋な探検を通じて環境の地図を作り、その後(すなわち)使うことから始まります。
エクスプロイト) 下流のナビゲーションタスクのために生成されたマップ。
これらのナビゲーションタスクを2つの別々のステップで実行することは、屋外および動的に変化する環境に展開するUAVにとって必ずしも可能あるいは不利であるとは限らない。
現在の探査アプローチでは、先駆的な人間生成地図を使うか、フロンティアに基づく探索のようなヒューリスティックスを使うかのどちらかである。
他のアプローチでは、学習を使用するが、サンプル非効率なランダム探索や、フルマップの可用性に関する非現実的な仮定を行うことによって、特定のタスクの学習ポリシーのみに焦点を当てる。
本稿では, 深層強化学習(DRL)を用いて, 未知の環境における関心領域(AoIs)を探索するUAVに対して, 探索と搾取のトレードオフを行うための適応探索手法を開発する。
提案手法では, 環境マップを小型でトラクタブルな地図に分解するために, マップセグメンテーション手法を用いる。
そして、簡単な情報ゲイン関数を繰り返し計算して、プロセスの各イテレーション中に検索する最適な対象領域を決定する。
DDQNとA2CのアルゴリズムはLSTMレイヤのスタックで拡張され、探索とエクスプロイトのための最適なポリシーを生成するように訓練される。
このアプローチを3つの異なるタスクで4つのベースラインに対してテストしました。
その結果,提案手法はランダムに生成された環境をナビゲートし,ベースラインよりも少ない時間ステップでより多くのaoiをカバーできることがわかった。
関連論文リスト
- Aerial View Goal Localization with Reinforcement Learning [6.165163123577484]
本稿では,実際のUAVへのアクセスを必要とせずに,SAR(Search-and-Rescue)のようなセットアップをエミュレートするフレームワークを提案する。
この枠組みでは、エージェントが空中画像(探索領域のプロキシ)上で動作し、視覚的手がかりとして記述されたゴールのローカライズを行う。
AiRLocは、探索(遠方目標探索)と搾取(近方目標の局所化)を分離する強化学習(RL)に基づくモデルである。
論文 参考訳(メタデータ) (2022-09-08T10:27:53Z) - Incremental 3D Scene Completion for Safe and Efficient Exploration
Mapping and Planning [60.599223456298915]
本研究では,情報,安全,解釈可能な地図作成と計画に3次元シーン補完を活用することによって,深層学習を探索に統合する新しい手法を提案する。
本手法は,地図の精度を最小限に抑えることで,ベースラインに比べて環境のカバレッジを73%高速化できることを示す。
最終地図にシーン完了が含まれていなくても、ロボットがより情報的な経路を選択するように誘導し、ロボットのセンサーでシーンの測定を35%高速化できることが示される。
論文 参考訳(メタデータ) (2022-08-17T14:19:33Z) - Follow your Nose: Using General Value Functions for Directed Exploration
in Reinforcement Learning [5.40729975786985]
本稿では,汎用価値関数(GVF)と有向探索戦略を用いて,探索と補助的タスク学習を組み合わせることを提案する。
3つのナビゲーションタスクにおいて、手作業ではなく選択肢(アクションのシーケンス)を学習し、パフォーマンス上の優位性を実証する簡単な方法を提供する。
論文 参考訳(メタデータ) (2022-03-02T05:14:11Z) - Uncertainty-driven Planner for Exploration and Navigation [36.933903274373336]
未確認環境における探索とポイントゴールナビゲーションの問題点を考察する。
本論では,屋内マップよりも先進的な学習が,これらの問題に対処する上で大きなメリットをもたらすと論じている。
本稿では、まず、エージェントの視野を超えた占有マップを生成することを学習する新しい計画フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-24T05:25:31Z) - MarsExplorer: Exploration of Unknown Terrains via Deep Reinforcement
Learning and Procedurally Generated Environments [0.7742297876120561]
MarsExplorerは、未知の領域の探索と探査に適したオープンなジャム互換環境である。
オリジナルのロボティクスの問題を、さまざまな既製のアルゴリズムが対応できる強化学習装置に翻訳する。
4種類の最先端RLアルゴリズム(A3C、PPO、レインボー、SAC)がMarsExplorer環境で訓練されている。
論文 参考訳(メタデータ) (2021-07-21T10:29:39Z) - A Multi-UAV System for Exploration and Target Finding in Cluttered and
GPS-Denied Environments [68.31522961125589]
複雑なGPSを用いた複雑な環境において,UAVのチームが協調して目標を探索し,発見するための枠組みを提案する。
UAVのチームは自律的にナビゲートし、探索し、検出し、既知の地図で散らばった環境でターゲットを見つける。
その結果, 提案方式は, 時間的コスト, 調査対象地域の割合, 捜索・救助ミッションの成功率などの面で改善されていることがわかった。
論文 参考訳(メタデータ) (2021-07-19T12:54:04Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Autonomous UAV Exploration of Dynamic Environments via Incremental
Sampling and Probabilistic Roadmap [0.3867363075280543]
インクリメンタルサンプリングと確率的ロードマップ(PRM)を用いた未知環境探索のための新しい動的探索プランナ(DEP)を提案する。
本手法は, 動的環境を安全に探索し, 探索時間, 経路長, 計算時間でベンチマークプランナーより優れている。
論文 参考訳(メタデータ) (2020-10-14T22:52:37Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。