論文の概要: Semantic MapNet: Building Allocentric Semantic Maps and Representations
from Egocentric Views
- arxiv url: http://arxiv.org/abs/2010.01191v3
- Date: Thu, 11 Mar 2021 00:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 02:01:10.066477
- Title: Semantic MapNet: Building Allocentric Semantic Maps and Representations
from Egocentric Views
- Title(参考訳): semantic mapnet: 自己中心的視点からアロセントリックなセマンティックマップと表現を構築する
- Authors: Vincent Cartillier, Zhile Ren, Neha Jain, Stefan Lee, Irfan Essa,
Dhruv Batra
- Abstract要約: セマンティックマッピングの課題について検討する。具体的には、エンボディエージェント(ロボットまたはエゴセントリックAIアシスタント)が新しい環境のツアーを受ける。
我々は、RGB-Dカメラのエゴセントリックな観察と既知のポーズから、トップダウンのセマンティックマップ("What is where?")を構築する。
本稿では、投影型カメラ幾何とニューラル表現学習の強みを組み合わせたSemanticMapNet(SMNet)を提案する。
- 参考スコア(独自算出の注目度): 50.844459908504476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the task of semantic mapping - specifically, an embodied agent (a
robot or an egocentric AI assistant) is given a tour of a new environment and
asked to build an allocentric top-down semantic map ("what is where?") from
egocentric observations of an RGB-D camera with known pose (via localization
sensors). Towards this goal, we present SemanticMapNet (SMNet), which consists
of: (1) an Egocentric Visual Encoder that encodes each egocentric RGB-D frame,
(2) a Feature Projector that projects egocentric features to appropriate
locations on a floor-plan, (3) a Spatial Memory Tensor of size floor-plan
length x width x feature-dims that learns to accumulate projected egocentric
features, and (4) a Map Decoder that uses the memory tensor to produce semantic
top-down maps. SMNet combines the strengths of (known) projective camera
geometry and neural representation learning. On the task of semantic mapping in
the Matterport3D dataset, SMNet significantly outperforms competitive baselines
by 4.01-16.81% (absolute) on mean-IoU and 3.81-19.69% (absolute) on Boundary-F1
metrics. Moreover, we show how to use the neural episodic memories and
spatio-semantic allocentric representations build by SMNet for subsequent tasks
in the same space - navigating to objects seen during the tour("Find chair") or
answering questions about the space ("How many chairs did you see in the
house?"). Project page: https://vincentcartillier.github.io/smnet.html.
- Abstract(参考訳): セマンティックマッピングの課題について検討する。具体的には、エンボディエージェント(ロボットまたはエゴセントリックAIアシスタント)が新しい環境のツアーを受け、既知のポーズ(ローカライゼーションセンサーを介して)を持つRGB-Dカメラのエゴセントリックな観察から、アロセントリックなトップダウンセマンティックマップ("What is where?")を構築するよう依頼する。
この目的に向けてsemanticmapnet (smnet) を提案する。(1)各エゴセントリックrgb-dフレームを符号化するエゴセントリックビジュアルエンコーダ、(2) フロアプラン上の適切な場所にエゴセントリック機能を投影する機能プロジェクタ、(3) サイズのフロアプラン長の空間メモリテンソル x 幅 x 特徴ディム、(4) メモリテンソルを使用してセマンティックトップダウンマップを生成するマップデコーダである。
smnetは(既知の)投影カメラ幾何学とニューラルネットワーク表現学習の強みを組み合わせたものだ。
Matterport3Dデータセットのセマンティックマッピングのタスクにおいて、SMNetは平均IoUでは4.01-16.81%(絶対)、境界F1メトリクスでは3.81-19.69%(絶対)で競争ベースラインを著しく上回っている。
さらに,同じ空間でsmnetが構築した神経のエピソディクス記憶と空間論的アロセントリック表現を,ツアー中に見た物体へのナビゲートや,空間に関する質問に答える方法を示す("how many chairs did you see in the house?
プロジェクトページ: https://vincentcartillier.github.io/smnet.html
関連論文リスト
- 3D Semantic MapNet: Building Maps for Multi-Object Re-Identification in 3D [16.436661725188962]
具体化ツアーにおける3次元多目的再識別の課題について検討する。
本稿では3Dセマンティックマップネットについて,RGB-Dビデオで動作する3Dオブジェクト検出器と,識別可能なオブジェクトマッチングモジュールからなる2段階の再同定モデルを提案する。
全体として、3D-SMNetは、各レイアウトのオブジェクトベースのマップを構築し、その後、各ツアーのオブジェクトを再識別するために、差別化可能なマーカを使用する。
論文 参考訳(メタデータ) (2024-03-19T23:01:14Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Object-level 3D Semantic Mapping using a Network of Smart Edge Sensors [25.393382192511716]
我々は,分散エッジセンサのネットワークとオブジェクトレベルの情報からなる多視点3次元意味マッピングシステムを拡張した。
提案手法は,数cm以内でのポーズ推定と,実験室環境におけるセンサネットワークを用いた実環境実験により,Behaveデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-11-21T11:13:08Z) - Trans4Map: Revisiting Holistic Top-down Mapping from Egocentric Images
to Allocentric Semantics with Vision Transformers [34.6312362205904]
我々はTrans4Mapと呼ばれるマッピングのためのエンドツーエンドのワンステージトランスフォーマーベースのフレームワークを提案する。
Trans4Mapは67.2%のパラメータを削減しつつ、+3.25% mIoUと+4.09% mBF1の改善をMatterport3Dデータセットで達成している。
論文 参考訳(メタデータ) (2022-07-13T14:01:00Z) - Episodic Memory Question Answering [55.83870351196461]
我々は、人間がAIエージェントと対話し、質問することで拡張現実デバイスを駆動するシナリオを思い描いている。
成功するためには、エゴAIアシスタントはセマンティックにリッチで効率的なシーン記憶を構築する必要がある。
EMQA(Episodic Memory Question Answering)という新しいタスクを紹介します。
私たちが選択したエピソードシーンメモリは、非常に競争力のあるベースラインのホストであると同時に、そのタスクに対して、単純でオフザセンシティブなソリューションよりも優れています。
論文 参考訳(メタデータ) (2022-05-03T17:28:43Z) - HDNet: Human Depth Estimation for Multi-Person Camera-Space Localization [83.57863764231655]
本稿では,根の絶対的局所化のためのエンドツーエンドフレームワークであるHuman Depth Estimation Network (HDNet)を提案する。
関節間の特徴伝達に骨格ベースのグラフニューラルネットワーク(GNN)を用いる。
我々は,2つのベンチマークデータセットを用いて,ルートジョイントローカライゼーションとルート相対的な3次元ポーズ推定タスクについて,HDNetの評価を行った。
論文 参考訳(メタデータ) (2020-07-17T12:44:23Z) - Visual Semantic SLAM with Landmarks for Large-Scale Outdoor Environment [47.96314050446863]
我々は,ORB SLAMの3DポイントクラウドとPSPNet-101のセマンティックセマンティックセグメンテーション情報を組み合わせて,大規模環境のセマンティック3Dマップを作成するシステムを構築した。
実世界のランドマークとポイントクラウドマップを関連付ける方法を見つけ、セマンティックマップに基づいたトポロジマップを構築した。
論文 参考訳(メタデータ) (2020-01-04T03:34:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。