論文の概要: VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene
Completion
- arxiv url: http://arxiv.org/abs/2302.12251v1
- Date: Thu, 23 Feb 2023 18:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 13:54:25.514282
- Title: VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene
Completion
- Title(参考訳): VoxFormer:3Dセマンティックシーンコンプリートのためのスパースボクセルトランス
- Authors: Yiming Li and Zhiding Yu and Christopher Choy and Chaowei Xiao and
Jose M. Alvarez and Sanja Fidler and Chen Feng and Anima Anandkumar
- Abstract要約: VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。
2D画像のみから完全な3Dセマンティクスを出力できる。
幾何学では20.0%、意味論では18.1%の相対的な改善で芸術の状態を上回ります。
- 参考スコア(独自算出の注目度): 129.5975573092919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can easily imagine the complete 3D geometry of occluded objects and
scenes. This appealing ability is vital for recognition and understanding. To
enable such capability in AI systems, we propose VoxFormer, a Transformer-based
semantic scene completion framework that can output complete 3D volumetric
semantics from only 2D images. Our framework adopts a two-stage design where we
start from a sparse set of visible and occupied voxel queries from depth
estimation, followed by a densification stage that generates dense 3D voxels
from the sparse ones. A key idea of this design is that the visual features on
2D images correspond only to the visible scene structures rather than the
occluded or empty spaces. Therefore, starting with the featurization and
prediction of the visible structures is more reliable. Once we obtain the set
of sparse queries, we apply a masked autoencoder design to propagate the
information to all the voxels by self-attention. Experiments on SemanticKITTI
show that VoxFormer outperforms the state of the art with a relative
improvement of 20.0% in geometry and 18.1% in semantics and reduces GPU memory
during training by ~45% to less than 16GB. Our code is available on
https://github.com/NVlabs/VoxFormer.
- Abstract(参考訳): 人間は、隠された物体やシーンの完全な3D幾何学を想像することができる。
この魅力ある能力は認識と理解に不可欠である。
本稿では,aiシステムにおいてこのような機能を実現するために,トランスフォーマティブベースの意味シーン補完フレームワークvoxformerを提案する。
私たちのフレームワークは、2段階の設計を採用しており、深さ推定から可視および占有されたvoxelクエリのスパースセットから始まり、さらにスパースクエリから高密度な3dvoxelを生成するデンシフィケーションステージから始めます。
このデザインの重要な考え方は、2d画像の視覚的な特徴が、オクルードまたは空っぽの空間ではなく、可視的なシーン構造にのみ対応していることである。
したがって、可視構造の実現と予測から始めると、より信頼性が高い。
スパースクエリの集合が得られたら、マスク付きオートエンコーダの設計を適用して、情報を全ボクセルに自己注意で伝達する。
SemanticKITTIの実験では、VoxFormerは20.0%の幾何学的改善と18.1%のセマンティクスにより芸術の状態を上回り、トレーニング中のGPUメモリを45%から16GB以下に削減している。
私たちのコードはhttps://github.com/NVlabs/VoxFormerで利用可能です。
関連論文リスト
- BUOL: A Bottom-Up Framework with Occupancy-aware Lifting for Panoptic 3D
Scene Reconstruction From A Single Image [33.126045619754365]
BUOLはOccupancy-aware Liftingを備えたフレームワークであり、単一の画像からパノプティカル3Dシーンを再構築する際の2つの問題に対処する。
提案手法は,3D-Frontおよび実世界のデータセットMatterport3Dにおける最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T17:56:49Z) - VoxDet: Voxel Learning for Novel Instance Detection [15.870525460969553]
VoxDetは、見えないインスタンスを検出するための3Dジオメトリ対応フレームワークである。
本フレームワークは,強力な3次元ボクセル表現と信頼性ボクセルマッチング機構をフル活用する。
我々の知る限りでは、VoxDetは暗黙の3D知識を2D斬新なインスタンス検出タスクに取り入れた最初の企業です。
論文 参考訳(メタデータ) (2023-05-26T19:25:13Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。
画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。
フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文 参考訳(メタデータ) (2022-07-23T09:03:13Z) - Curiosity-driven 3D Scene Structure from Single-image Self-supervision [22.527696847086574]
これまでの研究は、孤立した3Dオブジェクトを2Dのみの自己スーパービジョンから学習することを実証してきた。
ここでは、複数のオブジェクトで構成された3Dシーン全体(位置、向き、型など)に拡張することにしました。
得られたシステムは、異なる仮想または実画像の2D画像を完全な3Dシーンに変換し、それらのシーンの2D画像からのみ学習する。
論文 参考訳(メタデータ) (2020-12-02T14:17:16Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。