論文の概要: Language-enhanced RNR-Map: Querying Renderable Neural Radiance Field
maps with natural language
- arxiv url: http://arxiv.org/abs/2308.08854v1
- Date: Thu, 17 Aug 2023 08:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 17:26:21.390919
- Title: Language-enhanced RNR-Map: Querying Renderable Neural Radiance Field
maps with natural language
- Title(参考訳): 言語強化RNR-Map:自然言語を用いたRenderable Neural Radiance Field Mapの検索
- Authors: Francesco Taioli, Federico Cunico, Federico Girella, Riccardo Bologna,
Alessandro Farinelli, Marco Cristani
- Abstract要約: 自然言語クエリプロンプトを用いた視覚ナビゲーションのための言語拡張型Renderable Neural Radiance Mapを提案する。
Le-RNR-Mapは、各ピクセルに配置された遅延符号からなるグリッド構造を用いる。
CLIPをベースとした埋め込みコードによりRNRマップを強化し,ラベルデータを追加せずに自然言語検索を可能にする。
- 参考スコア(独自算出の注目度): 51.805056586678184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Le-RNR-Map, a Language-enhanced Renderable Neural Radiance map for
Visual Navigation with natural language query prompts. The recently proposed
RNR-Map employs a grid structure comprising latent codes positioned at each
pixel. These latent codes, which are derived from image observation, enable: i)
image rendering given a camera pose, since they are converted to Neural
Radiance Field; ii) image navigation and localization with astonishing
accuracy. On top of this, we enhance RNR-Map with CLIP-based embedding latent
codes, allowing natural language search without additional label data. We
evaluate the effectiveness of this map in single and multi-object searches. We
also investigate its compatibility with a Large Language Model as an
"affordance query resolver". Code and videos are available at
https://intelligolabs.github.io/Le-RNR-Map/
- Abstract(参考訳): 自然言語クエリプロンプトを用いた視覚ナビゲーションのための言語拡張型Renderable Neural Radiance MapであるLe-RNR-Mapを提案する。
最近提案された RNR-Map では,各ピクセルに配置された遅延符号からなるグリッド構造を採用している。
これらの潜在コードは、画像観察から派生したもので、
一 カメラのポーズがニューラルラディアンスフィールドに変換されるため、画像のレンダリング
二 驚くべき精度で画像ナビゲーション及び位置決め
これに加えて、CLIPベースの埋め込み遅延コードによりRNR-Mapを強化し、ラベルデータを追加せずに自然言語検索を可能にする。
我々はこの地図の有効性を単目的・多目的探索で評価する。
また,大規模言語モデルとの互換性を「アフォード・クエリ・リゾルバ」として検討する。
コードとビデオはhttps://intelligolabs.github.io/le-rnr-map/で入手できる。
関連論文リスト
- Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models [15.454856838083511]
大言語モデル(LLM)は、ロボットが共通感覚推論を用いてタスクプランを生成するためのツールとして登場した。
最近の研究は、固定された意味クラスを持つ明示的な写像から暗黙的なオープンな語彙マップへと移行している。
LLMと簡単に統合しながら、数千のセマンティッククラスを表現できる明示的なテキストベースのマップを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:26:19Z) - DisPlacing Objects: Improving Dynamic Vehicle Detection via Visual Place
Recognition under Adverse Conditions [29.828201168816243]
本研究では,3次元マップを必要とせずに,シーン内の動的物体の検出を支援するために,先行マップを活用できるかどうかを検討する。
提案手法は,対象物検出の初期セットを洗練し,事前マップを用いて高精度な検出のサブセットを生成するアルゴリズムである。
論文 参考訳(メタデータ) (2023-06-30T10:46:51Z) - SNAP: Self-Supervised Neural Maps for Visual Positioning and Semantic
Understanding [57.108301842535894]
我々は、地上と頭上の画像からリッチなニューラル2Dマップを学習するディープネットワークSNAPを紹介する。
我々は、異なる入力から推定されるニューラルマップの整列をトレーニングし、何千万ものストリートビュー画像のカメラポーズでのみ監視する。
SNAPは、従来の手法の範囲を超えて、挑戦的な画像クエリの場所を解決できる。
論文 参考訳(メタデータ) (2023-06-08T17:54:47Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Renderable Neural Radiance Map for Visual Navigation [18.903118231531973]
視覚ナビゲーションのための新しいタイプのニューラルラディアンスマップ(RNR-Map)を提案する。
RNR-Mapはグリッド形式であり、各ピクセルの遅延符号で構成されている。
記録された潜伏符号には環境に関する情報が暗黙的に含まれており、RNR-Mapは視覚的に記述される。
論文 参考訳(メタデータ) (2023-03-01T08:00:46Z) - HPointLoc: Point-based Indoor Place Recognition using Synthetic RGB-D
Images [58.720142291102135]
本稿では,屋内環境における視覚的位置認識能力の探索を目的とした,HPointLocという新しいデータセットを提案する。
データセットは人気のあるHabitatシミュレータに基づいており、独自のセンサーデータとオープンデータセットの両方を使用して屋内シーンを生成することができる。
論文 参考訳(メタデータ) (2022-12-30T12:20:56Z) - Visual Language Maps for Robot Navigation [30.33041779258644]
ナビゲーションエージェントの視覚的観察に対する接地言語は、インターネットスケールのデータに基づいて事前訓練された市販の視覚言語モデルを用いて行うことができる。
実世界の3次元再構成により,事前学習した視覚言語特徴を直接融合する空間地図表現 VLMaps を提案する。
論文 参考訳(メタデータ) (2022-10-11T18:13:20Z) - Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense
Spatiotemporal Grounding [75.03682706791389]
新しいビジョン・アンド・ランゲージ・ナビゲーション(VLN)データセットであるRoom-Across-Room(RxR)を紹介する。
RxRは多言語(英語、ヒンディー語、テルグ語)で、他のVLNデータセットよりも大きい(パスと命令がより多い)。
これはVLNにおける言語の役割を強調し、パスにおける既知のバイアスに対処し、可視化されたエンティティへのより多くの参照を引き出す。
論文 参考訳(メタデータ) (2020-10-15T18:01:15Z) - Differentiable Mapping Networks: Learning Structured Map Representations
for Sparse Visual Localization [28.696160266177806]
微分可能マッピングネットワーク(DMN)は、視覚的ローカライゼーションのための効果的なマップ表現を学習する。
シミュレーション環境と実世界のストリートビューデータセットを用いたDMNの評価を行った。
論文 参考訳(メタデータ) (2020-05-19T15:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。