Fugu-MT 論文翻訳(概要): VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

論文の概要: VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

arxiv url: http://arxiv.org/abs/2302.12251v1
Date: Thu, 23 Feb 2023 18:59:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-24 13:54:25.514282
Title: VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion
Title（参考訳）: VoxFormer:3Dセマンティックシーンコンプリートのためのスパースボクセルトランス
Authors: Yiming Li and Zhiding Yu and Christopher Choy and Chaowei Xiao and Jose M. Alvarez and Sanja Fidler and Chen Feng and Anima Anandkumar
Abstract要約: VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。 2D画像のみから完全な3Dセマンティクスを出力できる。幾何学では20.0%、意味論では18.1%の相対的な改善で芸術の状態を上回ります。
参考スコア（独自算出の注目度）: 129.5975573092919
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humans can easily imagine the complete 3D geometry of occluded objects and scenes. This appealing ability is vital for recognition and understanding. To enable such capability in AI systems, we propose VoxFormer, a Transformer-based semantic scene completion framework that can output complete 3D volumetric semantics from only 2D images. Our framework adopts a two-stage design where we start from a sparse set of visible and occupied voxel queries from depth estimation, followed by a densification stage that generates dense 3D voxels from the sparse ones. A key idea of this design is that the visual features on 2D images correspond only to the visible scene structures rather than the occluded or empty spaces. Therefore, starting with the featurization and prediction of the visible structures is more reliable. Once we obtain the set of sparse queries, we apply a masked autoencoder design to propagate the information to all the voxels by self-attention. Experiments on SemanticKITTI show that VoxFormer outperforms the state of the art with a relative improvement of 20.0% in geometry and 18.1% in semantics and reduces GPU memory during training by ~45% to less than 16GB. Our code is available on https://github.com/NVlabs/VoxFormer.
Abstract（参考訳）: 人間は、隠された物体やシーンの完全な3D幾何学を想像することができる。この魅力ある能力は認識と理解に不可欠である。本稿では,aiシステムにおいてこのような機能を実現するために,トランスフォーマティブベースの意味シーン補完フレームワークvoxformerを提案する。私たちのフレームワークは、2段階の設計を採用しており、深さ推定から可視および占有されたvoxelクエリのスパースセットから始まり、さらにスパースクエリから高密度な3dvoxelを生成するデンシフィケーションステージから始めます。このデザインの重要な考え方は、2d画像の視覚的な特徴が、オクルードまたは空っぽの空間ではなく、可視的なシーン構造にのみ対応していることである。したがって、可視構造の実現と予測から始めると、より信頼性が高い。スパースクエリの集合が得られたら、マスク付きオートエンコーダの設計を適用して、情報を全ボクセルに自己注意で伝達する。 SemanticKITTIの実験では、VoxFormerは20.0%の幾何学的改善と18.1%のセマンティクスにより芸術の状態を上回り、トレーニング中のGPUメモリを45%から16GB以下に削減している。私たちのコードはhttps://github.com/NVlabs/VoxFormerで利用可能です。

関連論文リスト

RoamScene3D: Immersive Text-to-3D Scene Generation via Adaptive Object-aware Roaming [79.81527946524098]
RoamScene3Dはセマンティックガイダンスと空間生成のギャップを埋める新しいフレームワークである。我々は、オブジェクト関係を符号化するシーングラフを構築するために、視覚言語モデル(VLM)を用いる。静的な2Dプリミティブの制約を軽減するため、合成パノラマデータセットに微調整されたモーションインジェクトインペインティングモデルを導入する。
論文参考訳（メタデータ） (2026-01-27T10:10:55Z)
Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。 UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文参考訳（メタデータ） (2025-12-16T12:49:35Z)
LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion [21.828264119753502]
LangScene-Xは、3D一貫したマルチモダリティ情報を統一し、生成する新しい生成フレームワークである。より一貫した新しい観察を創造する生成能力によって、我々はスパースビューのみから一般化可能な3D言語埋め込みシーンを構築することができる。
論文参考訳（メタデータ） (2025-07-03T17:21:23Z)
SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文参考訳（メタデータ） (2024-10-26T00:52:46Z)
DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文参考訳（メタデータ） (2024-06-17T21:15:13Z)
BUOL: A Bottom-Up Framework with Occupancy-aware Lifting for Panoptic 3D Scene Reconstruction From A Single Image [33.126045619754365]
BUOLはOccupancy-aware Liftingを備えたフレームワークであり、単一の画像からパノプティカル3Dシーンを再構築する際の2つの問題に対処する。提案手法は,3D-Frontおよび実世界のデータセットMatterport3Dにおける最先端の手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2023-06-01T17:56:49Z)
VoxDet: Voxel Learning for Novel Instance Detection [15.870525460969553]
VoxDetは、見えないインスタンスを検出するための3Dジオメトリ対応フレームワークである。本フレームワークは,強力な3次元ボクセル表現と信頼性ボクセルマッチング機構をフル活用する。我々の知る限りでは、VoxDetは暗黙の3D知識を2D斬新なインスタンス検出タスクに取り入れた最初の企業です。
論文参考訳（メタデータ） (2023-05-26T19:25:13Z)
SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文参考訳（メタデータ） (2023-02-02T18:59:16Z)
CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文参考訳（メタデータ） (2022-07-23T09:03:13Z)
Curiosity-driven 3D Scene Structure from Single-image Self-supervision [22.527696847086574]
これまでの研究は、孤立した3Dオブジェクトを2Dのみの自己スーパービジョンから学習することを実証してきた。ここでは、複数のオブジェクトで構成された3Dシーン全体(位置、向き、型など)に拡張することにしました。得られたシステムは、異なる仮想または実画像の2D画像を完全な3Dシーンに変換し、それらのシーンの2D画像からのみ学習する。
論文参考訳（メタデータ） (2020-12-02T14:17:16Z)
3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文参考訳（メタデータ） (2020-03-31T09:33:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。