論文の概要: End-to-End Partially Observable Visual Navigation in a Diverse
Environment
- arxiv url: http://arxiv.org/abs/2109.07752v1
- Date: Thu, 16 Sep 2021 06:53:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:06:39.364831
- Title: End-to-End Partially Observable Visual Navigation in a Diverse
Environment
- Title(参考訳): 広帯域環境における部分観察可能な視覚ナビゲーション
- Authors: Bo Ai, Wei Gao, Vinay, David Hsu
- Abstract要約: 本研究の目的は, (i) 複雑な視覚観察, (ii) 局所センシングの部分観測可能性, (iii) マルチモーダルナビゲーションの3つの課題である。
ローカルコントローラを表現するニューラルネットワーク(NN)アーキテクチャを提案し,エンドツーエンドアプローチの柔軟性を活用して強力なポリシを学習する。
本研究では,SPOTロボットにNNコントローラを実装し,部分観察を行う3つの課題について評価する。
- 参考スコア(独自算出の注目度): 30.895264166384685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can a robot navigate successfully in a rich and diverse environment,
indoors or outdoors, along an office corridor or a trail in the park, on the
flat ground, the staircase, or the elevator, etc.? To this end, this work aims
at three challenges: (i) complex visual observations, (ii) partial
observability of local sensing, and (iii) multimodal navigation behaviors that
depend on both the local environment and the high-level goal. We propose a
novel neural network (NN) architecture to represent a local controller and
leverage the flexibility of the end-to-end approach to learn a powerful policy.
To tackle complex visual observations, we extract multiscale spatial
information through convolution layers. To deal with partial observability, we
encode rich history information in LSTM-like modules. Importantly, we integrate
the two into a single unified architecture that exploits convolutional memory
cells to track the observation history at multiple spatial scales, which can
capture the complex spatiotemporal dependencies between observations and
controls. We additionally condition the network on the high-level goal in order
to generate different navigation behavior modes. Specifically, we propose to
use independent memory cells for different modes to prevent mode collapse in
the learned policy. We implemented the NN controller on the SPOT robot and
evaluate it on three challenging tasks with partial observations: adversarial
pedestrian avoidance, blind-spot obstacle avoidance, and elevator riding. Our
model significantly outperforms CNNs, conventional LSTMs, or the ablated
versions of our model. A demo video will be publicly available, showing our
SPOT robot traversing many different locations on our university campus.
- Abstract(参考訳): ロボットは、屋内や屋外、オフィスの廊下や公園の小道、平らな地面、階段、エレベーターなどに沿って、豊かで多様な環境でうまく移動できるのだろうか?
この目的のために、この研究は3つの課題を目指しています。
(i)複雑な視覚観察。
(ii)局所センシングの部分的可観測性、及び
(iii)局所環境と高レベル目標の両方に依存するマルチモーダルナビゲーション行動。
ローカルコントローラを表現するニューラルネットワーク(NN)アーキテクチャを提案し,エンドツーエンドアプローチの柔軟性を活用して強力なポリシを学習する。
複雑な視覚観察に取り組むため,畳み込み層を通して多スケール空間情報を抽出する。
部分観測可能性に対処するため、LSTMのようなモジュールで豊富な履歴情報をエンコードする。
重要なことに、この2つを単一の統一アーキテクチャに統合し、畳み込みメモリセルを利用して複数の空間スケールでの観測履歴を追跡し、観測と制御の間の複雑な時空間依存性を捉えることができる。
さらに、異なるナビゲーション動作モードを生成するために、ネットワークをハイレベルな目標に設定する。
具体的には,独立したメモリセルを異なるモードに使用することで,学習方針のモード崩壊を防止することを提案する。
本研究では,SPOTロボットにNNコントローラを実装し,対向歩行者回避,盲点障害物回避,エレベーター乗馬の3つの課題について評価した。
我々のモデルは、CNN、従来のLSTM、またはモデルの短縮バージョンよりも大幅に優れています。
デモビデオが公開され、私たちの大学キャンパスの様々な場所を横断するspotロボットが紹介される。
関連論文リスト
- Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning [58.69297999175239]
ロボット学習においては、異なるモードの異なる特徴のために観察空間が不可欠である。
本研究では,RGB, RGB-D, 点雲の3つのモードに着目し, 様々な観測空間がロボット学習に与える影響について検討する。
論文 参考訳(メタデータ) (2024-02-04T14:18:45Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - Polyline Based Generative Navigable Space Segmentation for Autonomous
Visual Navigation [57.3062528453841]
ロボットが教師なしの方法で移動可能な空間分割を学習できるようにするための表現学習ベースのフレームワークを提案する。
提案するPSV-Netは,単一のラベルを使わずとも,高精度で視覚ナビゲーション可能な空間を学習可能であることを示す。
論文 参考訳(メタデータ) (2021-10-29T19:50:48Z) - Towards real-world navigation with deep differentiable planners [0.0]
私たちは、見えない複雑な3D環境を計画し、ナビゲートするために、具体的ニューラルネットワークを訓練します。
安全な専門家によるデモンストレーションからオフラインでトレーニングされたバリューイテレーションネットワーク(VIN)など、さまざまなプランナに重点を置いています。
論文 参考訳(メタデータ) (2021-08-08T11:29:16Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Learning Synthetic to Real Transfer for Localization and Navigational
Tasks [7.019683407682642]
ナビゲーションは、コンピュータビジョン、ロボット工学、制御の概念を組み合わせて、複数の分野のクロスロードにある。
この研究は、実世界への移動をできる限り少ない努力で行うことができるナビゲーションパイプラインをシミュレーションで作成することを目的としていた。
ナビゲーションパイプラインを設計するには、環境、ローカライゼーション、ナビゲーション、計画の4つの大きな課題が発生する。
論文 参考訳(メタデータ) (2020-11-20T08:37:03Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。