論文の概要: Learning Navigational Visual Representations with Semantic Map
Supervision
- arxiv url: http://arxiv.org/abs/2307.12335v1
- Date: Sun, 23 Jul 2023 14:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 16:42:35.711830
- Title: Learning Navigational Visual Representations with Semantic Map
Supervision
- Title(参考訳): セマンティックマップによるナビゲーション視覚表現の学習
- Authors: Yicong Hong, Yang Zhou, Ruiyi Zhang, Franck Dernoncourt, Trung Bui,
Stephen Gould, Hao Tan
- Abstract要約: エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
- 参考スコア(独自算出の注目度): 85.91625020847358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Being able to perceive the semantics and the spatial structure of the
environment is essential for visual navigation of a household robot. However,
most existing works only employ visual backbones pre-trained either with
independent images for classification or with self-supervised learning methods
to adapt to the indoor navigation domain, neglecting the spatial relationships
that are essential to the learning of navigation. Inspired by the behavior that
humans naturally build semantically and spatially meaningful cognitive maps in
their brains during navigation, in this paper, we propose a novel
navigational-specific visual representation learning method by contrasting the
agent's egocentric views and semantic maps (Ego$^2$-Map). We apply the visual
transformer as the backbone encoder and train the model with data collected
from the large-scale Habitat-Matterport3D environments. Ego$^2$-Map learning
transfers the compact and rich information from a map, such as objects,
structure and transition, to the agent's egocentric representations for
navigation. Experiments show that agents using our learned representations on
object-goal navigation outperform recent visual pre-training methods. Moreover,
our representations significantly improve vision-and-language navigation in
continuous environments for both high-level and low-level action spaces,
achieving new state-of-the-art results of 47% SR and 41% SPL on the test
server.
- Abstract(参考訳): 家庭用ロボットの視覚的ナビゲーションには,環境の意味や空間構造を知覚できることが不可欠である。
しかし、既存のほとんどの作品は、独立した分類のための画像や、屋内ナビゲーション領域に適応するための自己教師付き学習手法で事前訓練された視覚的バックボーンのみを用いており、ナビゲーションの学習に不可欠な空間的関係を無視している。
本稿では,人間が自然に脳に意味的かつ空間的に有意味な認知地図を構築する行動に着想を得て,エージェントの自己中心的視点と意味的地図(ego$^2$-map)を対比して,新たなナビゲーション固有視覚表現学習法を提案する。
バックボーンエンコーダとしてビジュアルトランスフォーマーを適用し,大規模Habitat-Matterport3D環境から収集したデータを用いてモデルを訓練する。
Ego$^2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
実験の結果,学習した目標ナビゲーション表現を用いたエージェントは,近年の視覚前訓練法よりも優れていた。
さらに,高レベルかつ低レベルなアクション空間の連続環境における視覚・言語ナビゲーションを著しく改善し,テストサーバ上での47%のSRと41%のSPLの新たな最先端結果を実現した。
関連論文リスト
- Visuospatial navigation without distance, prediction, or maps [1.3812010983144802]
従来の視覚ナビゲーションタスクにおいて,最小限のフィードフォワードフレームワークの有効性を示す。
視覚的距離は目標への直接的軌跡を可能にするが、2つの異なるアルゴリズムは視覚的角度だけで頑健にナビゲートするように開発されている。
それぞれに独特の文脈的トレードオフが与えられ、げっ歯類、昆虫、魚、精子で観察される運動行動と一致している。
論文 参考訳(メタデータ) (2024-07-18T14:07:44Z) - NavHint: Vision and Language Navigation Agent with a Hint Generator [31.322331792911598]
我々は、詳細な視覚的記述を提供するヒント生成装置を通じて、ナビゲーションエージェントに対して間接的な監視を行う。
ヒントジェネレータは、ナビゲーションエージェントが視覚環境のグローバルな理解を開発するのを支援する。
提案手法をR2RとR4Rのデータセット上で評価し,いくつかの指標で最先端を実現する。
論文 参考訳(メタデータ) (2024-02-04T16:23:16Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Learning with a Mole: Transferable latent spatial representations for
navigation without reconstruction [12.845774297648736]
ほとんどのエンドツーエンドの学習アプローチでは、表現は潜伏しており、通常は明確に定義された解釈を持っていない。
本研究では,目的とする下流タスクとは無関係にシーンの動作可能な表現を学習することを提案する。
学習された表現は、進路から分岐する複数の短いエピソードをナビゲートするように訓練された盲人補助エージェントによって最適化される。
論文 参考訳(メタデータ) (2023-06-06T16:51:43Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - PONI: Potential Functions for ObjectGoal Navigation with
Interaction-free Learning [125.22462763376993]
対話自由学習(PONI)を用いたオブジェクト指向ナビゲーションの可能性について提案する。
PONIは、物がどこに見えるかというスキルと、どのように(x, y)にナビゲートするかを歪めます。」
論文 参考訳(メタデータ) (2022-01-25T01:07:32Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。