論文の概要: 360BEV: Panoramic Semantic Mapping for Indoor Bird's-Eye View
- arxiv url: http://arxiv.org/abs/2303.11910v4
- Date: Mon, 4 Sep 2023 18:17:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 06:04:53.834181
- Title: 360BEV: Panoramic Semantic Mapping for Indoor Bird's-Eye View
- Title(参考訳): 360bev:屋内の鳥の目に見えるパノラマ意味マッピング
- Authors: Zhifeng Teng, Jiaming Zhang, Kailun Yang, Kunyu Peng, Hao Shi, Simon
Rei{\ss}, Ke Cao, Rainer Stiefelhagen
- Abstract要約: 狭い視野(FoV)を単独で使用する場合、鳥眼視(BEV)の知覚は制限される。
360BEVタスクは、トップダウンビューで室内シーンの全体的表現を実現するために、初めて確立された。
- 参考スコア(独自算出の注目度): 38.10346176323481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Seeing only a tiny part of the whole is not knowing the full circumstance.
Bird's-eye-view (BEV) perception, a process of obtaining allocentric maps from
egocentric views, is restricted when using a narrow Field of View (FoV) alone.
In this work, mapping from 360{\deg} panoramas to BEV semantics, the 360BEV
task, is established for the first time to achieve holistic representations of
indoor scenes in a top-down view. Instead of relying on narrow-FoV image
sequences, a panoramic image with depth information is sufficient to generate a
holistic BEV semantic map. To benchmark 360BEV, we present two indoor datasets,
360BEV-Matterport and 360BEV-Stanford, both of which include egocentric
panoramic images and semantic segmentation labels, as well as allocentric
semantic maps. Besides delving deep into different mapping paradigms, we
propose a dedicated solution for panoramic semantic mapping, namely 360Mapper.
Through extensive experiments, our methods achieve 44.32% and 45.78% in mIoU on
both datasets respectively, surpassing previous counterparts with gains of
+7.60% and +9.70% in mIoU. Code and datasets are available at the project page:
https://jamycheung.github.io/360BEV.html.
- Abstract(参考訳): 全体の一部だけを見ることは、完全な状況を知ることではありません。
鳥眼視(Bird's-eye-view、BEV)は、細い視野(FoV)のみを用いることで、自我中心の視点から同心写像を得る過程を制限する。
本研究では,360{\deg}パノラマからbevセマンティクスへのマッピング,360bevタスクを初めて確立し,トップダウンビューで室内シーンの全体的表現を実現する。
狭いFoV画像列に頼る代わりに、奥行き情報を持つパノラマ画像は、全体論的BEVセマンティックマップを生成するのに十分である。
360BEVをベンチマークするために、私たちは2つの屋内データセット、360BEV-Matterportと360BEV-Stanfordを紹介します。
異なるマッピングパラダイムを深く掘り下げると同時に,パノラマ意味マッピングのための専用ソリューション,すなわち360mapperを提案する。
広範な実験により,両データセットでそれぞれ44.32%,45.78%のmiouをそれぞれ達成し,+7.60%,+9.70%をそれぞれ上回った。
コードとデータセットはプロジェクトのページで公開されている。
関連論文リスト
- VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - OneBEV: Using One Panoramic Image for Bird's-Eye-View Semantic Mapping [25.801868221496473]
OneBEVは、単一のパノラマ画像を入力として使用する、新しいBEVセマンティックマッピングアプローチである。
Mamba View Transformation (MVT)と呼ばれる歪み対応モジュールは、パノラマの空間歪みを処理するために特別に設計されている。
この作業は、自律運転におけるBEVセマンティックマッピングを前進させ、より高度で信頼性の高い自律システムへの道を開く。
論文 参考訳(メタデータ) (2024-09-20T21:33:53Z) - LetsMap: Unsupervised Representation Learning for Semantic BEV Mapping [23.366388601110913]
本稿では,FV画像からセマンティックなBEVマップをラベル効率よく生成するための,教師なし表現学習手法を提案する。
提案手法は,2つの解離したニューラルパスを教師なし方式で,シーン幾何学とシーン意味論を独立に推論するために,ネットワークを事前訓練する。
本研究では,FV画像の空間的・時間的整合性を利用して,シーン表現を符号化する新しい時間的マスク付きオートエンコーダの定式化に依存しながら,シーン形状を学習する。
論文 参考訳(メタデータ) (2024-05-29T08:03:36Z) - See360: Novel Panoramic View Interpolation [24.965259708297932]
See360は、潜在空間視点推定を用いた360パノラマビューのための汎用的で効率的なフレームワークである。
提案手法は,4つのデータセットに対する任意のビューのリアルタイムレンダリングを実現するのに十分な汎用性を有することを示す。
論文 参考訳(メタデータ) (2024-01-07T09:17:32Z) - Bird's-Eye-View Scene Graph for Vision-Language Navigation [85.72725920024578]
視覚言語ナビゲーション(VLN)は、人間の指示に従って3D環境をナビゲートするエージェントである。
室内環境のシーンレイアウトと幾何学的手がかりを符号化するために,多段階のBEV表現を利用するBEVシーングラフ(BSG)を提案する。
BSGに基づいて、エージェントは、ローカルなBEVグリッドレベル決定スコアとグローバルなグラフレベル決定スコアを予測し、パノラマビューのサブビュー選択スコアと組み合わせる。
論文 参考訳(メタデータ) (2023-08-09T07:48:20Z) - SA-BEV: Generating Semantic-Aware Bird's-Eye-View Feature for Multi-view
3D Object Detection [46.92706423094971]
画像特徴のセマンティックセグメンテーションに応じて背景情報をフィルタリングするセマンティック・アウェア・BEVプール(SA-BEVPool)を提案する。
また、セマンティック・アウェアのBEV機能と密接にマッチする効果的なデータ拡張戦略であるBEV-Pasteを提案する。
nuScenesの実験では、SA-BEVが最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2023-07-21T10:28:19Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z) - Understanding Bird's-Eye View Semantic HD-Maps Using an Onboard
Monocular Camera [110.83289076967895]
本研究では,ワンオンボードカメラからの映像入力を用いて,セマンティック・バードズ・アイ・ビューHDマップのオンライン推定形式でのシーン理解について検討した。
実験では,HDマップの理解において,考慮すべき側面が相補的であることを実証した。
論文 参考訳(メタデータ) (2020-12-05T14:39:14Z) - Visual Question Answering on 360{\deg} Images [96.00046925811515]
VQA 360は、360度画像上で視覚的な質問に答える新しいタスクである。
最初のVQA 360データセットを収集し、様々な質問タイプに対して、約17,000の現実世界の画像検索用トリプルを含む。
論文 参考訳(メタデータ) (2020-01-10T08:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。