論文の概要: VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene
Completion
- arxiv url: http://arxiv.org/abs/2302.12251v2
- Date: Sat, 25 Mar 2023 07:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 00:25:32.700347
- Title: VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene
Completion
- Title(参考訳): VoxFormer:3Dセマンティックシーンコンプリートのためのスパースボクセルトランス
- Authors: Yiming Li and Zhiding Yu and Christopher Choy and Chaowei Xiao and
Jose M. Alvarez and Sanja Fidler and Chen Feng and Anima Anandkumar
- Abstract要約: VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。
2D画像のみから完全な3Dセマンティクスを出力できる。
我々のフレームワークは、幾何学の20.0%と意味論の18.1%を相対的に改善し、芸術の状態を上回ります。
- 参考スコア(独自算出の注目度): 129.5975573092919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can easily imagine the complete 3D geometry of occluded objects and
scenes. This appealing ability is vital for recognition and understanding. To
enable such capability in AI systems, we propose VoxFormer, a Transformer-based
semantic scene completion framework that can output complete 3D volumetric
semantics from only 2D images. Our framework adopts a two-stage design where we
start from a sparse set of visible and occupied voxel queries from depth
estimation, followed by a densification stage that generates dense 3D voxels
from the sparse ones. A key idea of this design is that the visual features on
2D images correspond only to the visible scene structures rather than the
occluded or empty spaces. Therefore, starting with the featurization and
prediction of the visible structures is more reliable. Once we obtain the set
of sparse queries, we apply a masked autoencoder design to propagate the
information to all the voxels by self-attention. Experiments on SemanticKITTI
show that VoxFormer outperforms the state of the art with a relative
improvement of 20.0% in geometry and 18.1% in semantics and reduces GPU memory
during training to less than 16GB. Our code is available on
https://github.com/NVlabs/VoxFormer.
- Abstract(参考訳): 人間は、隠された物体やシーンの完全な3D幾何学を想像することができる。
この魅力ある能力は認識と理解に不可欠である。
本稿では,aiシステムにおいてこのような機能を実現するために,トランスフォーマティブベースの意味シーン補完フレームワークvoxformerを提案する。
私たちのフレームワークは、2段階の設計を採用しており、深さ推定から可視および占有されたvoxelクエリのスパースセットから始まり、さらにスパースクエリから高密度な3dvoxelを生成するデンシフィケーションステージから始めます。
このデザインの重要な考え方は、2d画像の視覚的な特徴が、オクルードまたは空っぽの空間ではなく、可視的なシーン構造にのみ対応していることである。
したがって、可視構造の実現と予測から始めると、より信頼性が高い。
スパースクエリの集合が得られたら、マスク付きオートエンコーダの設計を適用して、情報を全ボクセルに自己注意で伝達する。
SemanticKITTIの実験では、VoxFormerは20.0%の幾何学的改善と18.1%のセマンティクスにより芸術の状態を上回り、トレーニング中のGPUメモリを16GB未満に削減している。
私たちのコードはhttps://github.com/NVlabs/VoxFormerで利用可能です。
関連論文リスト
- SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。
提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文 参考訳(メタデータ) (2024-10-26T00:52:46Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - BUOL: A Bottom-Up Framework with Occupancy-aware Lifting for Panoptic 3D
Scene Reconstruction From A Single Image [33.126045619754365]
BUOLはOccupancy-aware Liftingを備えたフレームワークであり、単一の画像からパノプティカル3Dシーンを再構築する際の2つの問題に対処する。
提案手法は,3D-Frontおよび実世界のデータセットMatterport3Dにおける最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T17:56:49Z) - VoxDet: Voxel Learning for Novel Instance Detection [15.870525460969553]
VoxDetは、見えないインスタンスを検出するための3Dジオメトリ対応フレームワークである。
本フレームワークは,強力な3次元ボクセル表現と信頼性ボクセルマッチング機構をフル活用する。
我々の知る限りでは、VoxDetは暗黙の3D知識を2D斬新なインスタンス検出タスクに取り入れた最初の企業です。
論文 参考訳(メタデータ) (2023-05-26T19:25:13Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。
画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。
フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文 参考訳(メタデータ) (2022-07-23T09:03:13Z) - Curiosity-driven 3D Scene Structure from Single-image Self-supervision [22.527696847086574]
これまでの研究は、孤立した3Dオブジェクトを2Dのみの自己スーパービジョンから学習することを実証してきた。
ここでは、複数のオブジェクトで構成された3Dシーン全体(位置、向き、型など)に拡張することにしました。
得られたシステムは、異なる仮想または実画像の2D画像を完全な3Dシーンに変換し、それらのシーンの2D画像からのみ学習する。
論文 参考訳(メタデータ) (2020-12-02T14:17:16Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。