論文の概要: Not All Voxels Are Equal: Semantic Scene Completion from the Point-Voxel
Perspective
- arxiv url: http://arxiv.org/abs/2112.12925v2
- Date: Mon, 20 Mar 2023 12:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 05:31:21.573325
- Title: Not All Voxels Are Equal: Semantic Scene Completion from the Point-Voxel
Perspective
- Title(参考訳): すべてのボクセルが等しくない:ポイント・ボクセルの視点からのセマンティックシーンの完成
- Authors: Xiaokang Chen, Jiaxiang Tang, Jingbo Wang, Gang Zeng
- Abstract要約: セマンティック・シーン・コンプリート(SSC)を再考し,3次元シーンのセマンティック・シーン・コンプリート表現の予測に有用であることを示す。
本稿では,この課題に対する新しいポイント・ボクセル・アグリゲーション・ネットワークを提案する。
我々のモデルは2つのベンチマークにおける最先端の計算を大きなマージンで上回り、入力は深度画像のみである。
- 参考スコア(独自算出の注目度): 21.92736190195887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit Semantic Scene Completion (SSC), a useful task to predict the
semantic and occupancy representation of 3D scenes, in this paper. A number of
methods for this task are always based on voxelized scene representations for
keeping local scene structure. However, due to the existence of visible empty
voxels, these methods always suffer from heavy computation redundancy when the
network goes deeper, and thus limit the completion quality. To address this
dilemma, we propose our novel point-voxel aggregation network for this task.
Firstly, we transfer the voxelized scenes to point clouds by removing these
visible empty voxels and adopt a deep point stream to capture semantic
information from the scene efficiently. Meanwhile, a light-weight voxel stream
containing only two 3D convolution layers preserves local structures of the
voxelized scenes. Furthermore, we design an anisotropic voxel aggregation
operator to fuse the structure details from the voxel stream into the point
stream, and a semantic-aware propagation module to enhance the up-sampling
process in the point stream by semantic labels. We demonstrate that our model
surpasses state-of-the-arts on two benchmarks by a large margin, with only
depth images as the input.
- Abstract(参考訳): 本稿では,3dシーンの意味的・占有的表現を予測するための有用なタスクであるセマンティック・シーン・コンプリート(ssc)を再検討する。
このタスクの多くのメソッドは、常に局所的なシーン構造を維持するためのボキセル化シーン表現に基づいている。
しかしながら、目に見えない空ボクセルが存在するため、ネットワークがより深くなると、これらの手法は常に重い計算冗長性に苦しむため、完成品質が制限される。
このジレンマに対処するために,本課題に対する新しい点-ボクセルアグリゲーションネットワークを提案する。
まず,これら見えない空のボクセルを除去し,そのシーンから意味情報を効率よく捉えるために,深い点ストリームを採用することにより,ボクセル化シーンを点雲に転送する。
一方、2つの3次元畳み込み層のみを含む軽量ボクセルストリームは、ボクセル化されたシーンの局所構造を保存する。
さらに、ボクセルストリームからポイントストリームに構造の詳細を融合する異方性ボクセルアグリゲーション演算子と、ポイントストリームにおけるアップサンプリングプロセスを意味ラベルによって強化する意味認識伝播モジュールを設計した。
入力として深度画像しか持たない2つのベンチマークにおいて,我々のモデルが最先端をはるかに上回ることを示す。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene
Completion [129.5975573092919]
VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。
2D画像のみから完全な3Dセマンティクスを出力できる。
我々のフレームワークは、幾何学の20.0%と意味論の18.1%を相対的に改善し、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2023-02-23T18:59:36Z) - Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from
Point Clouds [16.69887974230884]
Transformerは多くの2次元視覚タスクで有望なパフォーマンスを示した。
ポイントクラウドは長いシーケンスであり、3D空間に不均一に分散しているため、大規模なポイントクラウドデータの自己アテンションを計算するのは困難である。
既存の方法は、通常、ポイントを同じ大きさのクラスタにグループ化したり、離散化された表現に対して畳み込み的な自己アテンションを実行することによって、自己アテンションを局所的に計算する。
本稿では,Voxel Set Transformer (VoxSeT) と呼ばれる新しいボクセルベースアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-19T12:31:46Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z) - A Real-Time Online Learning Framework for Joint 3D Reconstruction and
Semantic Segmentation of Indoor Scenes [87.74952229507096]
本稿では,屋内シーンの3次元構造とセマンティックラベルを協調的に復元するリアルタイムオンライン視覚フレームワークを提案する。
列車時、ノイズの多い深度マップ、カメラ軌跡、および2Dセマンティックラベルを与えられたニューラルネットワークは、シーン空間に適切なセマンティックラベルでフレームの奥行きを融合させることを学習する。
論文 参考訳(メタデータ) (2021-08-11T14:29:01Z) - Semantic Scene Completion using Local Deep Implicit Functions on LiDAR
Data [4.355440821669468]
本稿では,シーン補完のための新しい学習手法として,局所的な深層インプリシット関数に基づくシーン分割ネットワークを提案する。
この連続表現は、空間的離散化を必要とせず、広い屋外シーンの幾何学的・意味的な特性を符号化するのに適していることを示す。
実験により,本手法が与えられたシーンの高密度な3次元記述にデコード可能な強力な表現を生成することを確認した。
論文 参考訳(メタデータ) (2020-11-18T07:39:13Z) - Multi view stereo with semantic priors [3.756550107432323]
我々は,オープンソースライブラリ OpenMVS に実装されている3次元シーンの標準的な3次元再構成を,セマンティックプリエントを用いて支援することを目的としている。
可能なエラーを除去し、ラベルごとにセグメント化された点雲を選択的に取得するために、余分な意味制約を課す。
論文 参考訳(メタデータ) (2020-07-05T11:30:29Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。