論文の概要: Not All Voxels Are Equal: Semantic Scene Completion from the Point-Voxel
Perspective
- arxiv url: http://arxiv.org/abs/2112.12925v1
- Date: Fri, 24 Dec 2021 03:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 16:02:32.733784
- Title: Not All Voxels Are Equal: Semantic Scene Completion from the Point-Voxel
Perspective
- Title(参考訳): すべてのボクセルが等しくない:ポイント・ボクセルの視点からのセマンティックシーンの完成
- Authors: Jiaxiang Tang, Xiaokang Chen, Jingbo Wang, Gang Zeng
- Abstract要約: セマンティック・シーン・コンプリート(SSC)を再考し,3次元シーンのセマンティック・シーン・コンプリート表現の予測に有用であることを示す。
本稿では,この課題に対する新しいポイント・ボクセル・アグリゲーション・ネットワークを提案する。
我々のモデルは2つのベンチマークにおける最先端の計算を大きなマージンで上回り、入力は深度画像のみである。
- 参考スコア(独自算出の注目度): 18.959207952519144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit Semantic Scene Completion (SSC), a useful task to predict the
semantic and occupancy representation of 3D scenes, in this paper. A number of
methods for this task are always based on voxelized scene representations for
keeping local scene structure. However, due to the existence of visible empty
voxels, these methods always suffer from heavy computation redundancy when the
network goes deeper, and thus limit the completion quality. To address this
dilemma, we propose our novel point-voxel aggregation network for this task.
Firstly, we transfer the voxelized scenes to point clouds by removing these
visible empty voxels and adopt a deep point stream to capture semantic
information from the scene efficiently. Meanwhile, a light-weight voxel stream
containing only two 3D convolution layers preserves local structures of the
voxelized scenes. Furthermore, we design an anisotropic voxel aggregation
operator to fuse the structure details from the voxel stream into the point
stream, and a semantic-aware propagation module to enhance the up-sampling
process in the point stream by semantic labels. We demonstrate that our model
surpasses state-of-the-arts on two benchmarks by a large margin, with only
depth images as the input.
- Abstract(参考訳): 本稿では,3dシーンの意味的・占有的表現を予測するための有用なタスクであるセマンティック・シーン・コンプリート(ssc)を再検討する。
このタスクの多くのメソッドは、常に局所的なシーン構造を維持するためのボキセル化シーン表現に基づいている。
しかしながら、目に見えない空ボクセルが存在するため、ネットワークがより深くなると、これらの手法は常に重い計算冗長性に苦しむため、完成品質が制限される。
このジレンマに対処するために,本課題に対する新しい点-ボクセルアグリゲーションネットワークを提案する。
まず,これら見えない空のボクセルを除去し,そのシーンから意味情報を効率よく捉えるために,深い点ストリームを採用することにより,ボクセル化シーンを点雲に転送する。
一方、2つの3次元畳み込み層のみを含む軽量ボクセルストリームは、ボクセル化されたシーンの局所構造を保存する。
さらに、ボクセルストリームからポイントストリームに構造の詳細を融合する異方性ボクセルアグリゲーション演算子と、ポイントストリームにおけるアップサンプリングプロセスを意味ラベルによって強化する意味認識伝播モジュールを設計した。
入力として深度画像しか持たない2つのベンチマークにおいて,我々のモデルが最先端をはるかに上回ることを示す。
関連論文リスト
- GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene
Understanding [105.69002990314864]
Generalized Perception NeRF (GP-NeRF) は、広く使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に動作させる新しいパイプラインである。
本稿では,セマンティック蒸留損失(Semantic Distill Loss)とDepth-Guided Semantic Distill Loss(Depth-Guided Semantic Distill Loss)という2つの自己蒸留機構を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:59:41Z) - Unsupervised Region-Growing Network for Object Segmentation in
Atmospheric Turbulence [11.62754560134596]
本研究では,大気乱流の影響を受けやすい2段階の非教師対象セグメンテーションネットワークを提案する。
第1段階では、乱流歪み画像列からの平均光フローを利用して、各移動物体の予備マスクを作成する。
我々は、手動でアノテートされた地上の真理マスクを備えた、乱流の影響のあるビデオの最初の移動物体セグメンテーションデータセットをリリースする。
論文 参考訳(メタデータ) (2023-11-06T22:17:18Z) - VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene
Completion [129.5975573092919]
VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。
2D画像のみから完全な3Dセマンティクスを出力できる。
我々のフレームワークは、幾何学の20.0%と意味論の18.1%を相対的に改善し、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2023-02-23T18:59:36Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z) - A Real-Time Online Learning Framework for Joint 3D Reconstruction and
Semantic Segmentation of Indoor Scenes [87.74952229507096]
本稿では,屋内シーンの3次元構造とセマンティックラベルを協調的に復元するリアルタイムオンライン視覚フレームワークを提案する。
列車時、ノイズの多い深度マップ、カメラ軌跡、および2Dセマンティックラベルを与えられたニューラルネットワークは、シーン空間に適切なセマンティックラベルでフレームの奥行きを融合させることを学習する。
論文 参考訳(メタデータ) (2021-08-11T14:29:01Z) - Semantic Scene Completion using Local Deep Implicit Functions on LiDAR
Data [4.355440821669468]
本稿では,シーン補完のための新しい学習手法として,局所的な深層インプリシット関数に基づくシーン分割ネットワークを提案する。
この連続表現は、空間的離散化を必要とせず、広い屋外シーンの幾何学的・意味的な特性を符号化するのに適していることを示す。
実験により,本手法が与えられたシーンの高密度な3次元記述にデコード可能な強力な表現を生成することを確認した。
論文 参考訳(メタデータ) (2020-11-18T07:39:13Z) - Neural Sparse Voxel Fields [151.20366604586403]
高速かつ高品質な自由視点レンダリングのためのニューラルシーン表現であるNeural Sparse Voxel Fields (NSVF)を紹介する。
NSVFは、各細胞の局所特性をモデル化するために、スパース・ボクセル・オクツリーで組織された、ボクセルに結合した暗黙のフィールドのセットを定義する。
提案手法は, 高い品質を達成しつつ, 推論時の最先端技術(NeRF(Mildenhall et al., 2020))よりも10倍以上高速である。
論文 参考訳(メタデータ) (2020-07-22T17:51:31Z) - Multi view stereo with semantic priors [3.756550107432323]
我々は,オープンソースライブラリ OpenMVS に実装されている3次元シーンの標準的な3次元再構成を,セマンティックプリエントを用いて支援することを目的としている。
可能なエラーを除去し、ラベルごとにセグメント化された点雲を選択的に取得するために、余分な意味制約を課す。
論文 参考訳(メタデータ) (2020-07-05T11:30:29Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。