論文の概要: 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior
- arxiv url: http://arxiv.org/abs/2003.14052v1
- Date: Tue, 31 Mar 2020 09:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 01:27:01.639394
- Title: 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior
- Title(参考訳): 半教師構造による3次元スケッチ対応セマンティックシーン補完
- Authors: Xiaokang Chen, Kwan-Yee Lin, Chen Qian, Gang Zeng and Hongsheng Li
- Abstract要約: セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
- 参考スコア(独自算出の注目度): 50.73148041205675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of the Semantic Scene Completion (SSC) task is to simultaneously
predict a completed 3D voxel representation of volumetric occupancy and
semantic labels of objects in the scene from a single-view observation. Since
the computational cost generally increases explosively along with the growth of
voxel resolution, most current state-of-the-arts have to tailor their framework
into a low-resolution representation with the sacrifice of detail prediction.
Thus, voxel resolution becomes one of the crucial difficulties that lead to the
performance bottleneck.
In this paper, we propose to devise a new geometry-based strategy to embed
depth information with low-resolution voxel representation, which could still
be able to encode sufficient geometric information, e.g., room layout, object's
sizes and shapes, to infer the invisible areas of the scene with well
structure-preserving details. To this end, we first propose a novel 3D
sketch-aware feature embedding to explicitly encode geometric information
effectively and efficiently. With the 3D sketch in hand, we further devise a
simple yet effective semantic scene completion framework that incorporates a
light-weight 3D Sketch Hallucination module to guide the inference of occupancy
and the semantic labels via a semi-supervised structure prior learning
strategy. We demonstrate that our proposed geometric embedding works better
than the depth feature learning from habitual SSC frameworks. Our final model
surpasses state-of-the-arts consistently on three public benchmarks, which only
requires 3D volumes of 60 x 36 x 60 resolution for both input and output. The
code and the supplementary material will be available at
https://charlesCXK.github.io.
- Abstract(参考訳): セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
計算コストは一般的にvoxel分解能の成長とともに爆発的に増加するため、現在の最先端技術では、詳細な予測を犠牲にして、フレームワークを低解像度表現に調整する必要がある。
したがって、voxel解決はパフォーマンスボトルネックにつながる重要な課題の1つとなる。
本稿では,低解像度のボクセル表現で奥行き情報を埋め込む新たな幾何学的手法を提案する。部屋のレイアウトや物体の大きさ,形状など,十分な幾何学的情報をエンコードして,よく構造保存されたディテールでシーンの見えない領域を推測することができる。
そこで我々はまず,幾何学的情報を効果的かつ効率的にエンコードするための3Dスケッチ認識機能埋め込みを提案する。
さらに,この3次元スケッチを手掛けて,半教師構造事前学習戦略による占有率と意味ラベルの推論を導く軽量3次元スケッチ幻覚モジュールを組み込んだ,単純かつ効果的な意味シーン補完フレームワークを考案した。
提案手法は,SSCフレームワークからの深度特徴学習よりも,幾何埋め込みが有効であることを示す。
最終モデルは3つの公開ベンチマークで常に最先端を越え、入力と出力の両方に60 x 36 x 60の3Dボリュームしか必要としない。
コードと補足資料はhttps://charlescxk.github.ioで入手できる。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - DepthSSC: Depth-Spatial Alignment and Dynamic Voxel Resolution for
Monocular 3D Semantic Scene Completion [0.4662017507844857]
DepthSSCはモノクロカメラのみをベースとしたセマンティックシーン補完手法である。
従来の手法で観察された空間的不整合や歪みの問題を緩和する。
複雑な3D構造の詳細をキャプチャーし、最先端のパフォーマンスを実現する効果を実証する。
論文 参考訳(メタデータ) (2023-11-28T01:47:51Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - Scene as Occupancy [66.43673774733307]
OccNetは、カスケードと時間ボクセルデコーダを備えたビジョン中心のパイプラインで、3D占有を再構築する。
nuScenes上に構築された最初の高密度3D占有率ベンチマークであるOpenOccを提案する。
論文 参考訳(メタデータ) (2023-06-05T13:01:38Z) - Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous
Driving [34.368848580725576]
我々は,任意のシーンに対して,濃密で可視性に配慮したラベルを生成するラベル生成パイプラインを開発した。
このパイプラインは、ボクセルの密度化、推論、画像誘導ボクセル精製の3段階からなる。
我々は、Occ3Dベンチマークにおいて優れた性能を示すCTF-Occネットワークと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-04-27T17:40:08Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Cuboids Revisited: Learning Robust 3D Shape Fitting to Single RGB Images [44.223070672713455]
特に、人為的な環境は、一般的にキュービドやシリンダーのようなボリュームプリミティブから成り立っている。
従来のアプローチでは、2Dまたは3D入力から直接形状パラメータを推定し、単純なオブジェクトのみを再現できる。
立方体を用いた実世界の環境を有意義に抽象化するプリミティブフィッティングのための堅牢な推定器を提案する。
論文 参考訳(メタデータ) (2021-05-05T13:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。