Fugu-MT 論文翻訳(概要): Not All Voxels Are Equal: Semantic Scene Completion from the Point-Voxel Perspective

論文の概要: Not All Voxels Are Equal: Semantic Scene Completion from the Point-Voxel Perspective

arxiv url: http://arxiv.org/abs/2112.12925v1
Date: Fri, 24 Dec 2021 03:25:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-28 16:02:32.733784
Title: Not All Voxels Are Equal: Semantic Scene Completion from the Point-Voxel Perspective
Title（参考訳）: すべてのボクセルが等しくない:ポイント・ボクセルの視点からのセマンティックシーンの完成
Authors: Jiaxiang Tang, Xiaokang Chen, Jingbo Wang, Gang Zeng
Abstract要約: セマンティック・シーン・コンプリート(SSC)を再考し,3次元シーンのセマンティック・シーン・コンプリート表現の予測に有用であることを示す。本稿では,この課題に対する新しいポイント・ボクセル・アグリゲーション・ネットワークを提案する。我々のモデルは2つのベンチマークにおける最先端の計算を大きなマージンで上回り、入力は深度画像のみである。
参考スコア（独自算出の注目度）: 18.959207952519144
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We revisit Semantic Scene Completion (SSC), a useful task to predict the semantic and occupancy representation of 3D scenes, in this paper. A number of methods for this task are always based on voxelized scene representations for keeping local scene structure. However, due to the existence of visible empty voxels, these methods always suffer from heavy computation redundancy when the network goes deeper, and thus limit the completion quality. To address this dilemma, we propose our novel point-voxel aggregation network for this task. Firstly, we transfer the voxelized scenes to point clouds by removing these visible empty voxels and adopt a deep point stream to capture semantic information from the scene efficiently. Meanwhile, a light-weight voxel stream containing only two 3D convolution layers preserves local structures of the voxelized scenes. Furthermore, we design an anisotropic voxel aggregation operator to fuse the structure details from the voxel stream into the point stream, and a semantic-aware propagation module to enhance the up-sampling process in the point stream by semantic labels. We demonstrate that our model surpasses state-of-the-arts on two benchmarks by a large margin, with only depth images as the input.
Abstract（参考訳）: 本稿では,3dシーンの意味的・占有的表現を予測するための有用なタスクであるセマンティック・シーン・コンプリート(ssc)を再検討する。このタスクの多くのメソッドは、常に局所的なシーン構造を維持するためのボキセル化シーン表現に基づいている。しかしながら、目に見えない空ボクセルが存在するため、ネットワークがより深くなると、これらの手法は常に重い計算冗長性に苦しむため、完成品質が制限される。このジレンマに対処するために,本課題に対する新しい点-ボクセルアグリゲーションネットワークを提案する。まず,これら見えない空のボクセルを除去し,そのシーンから意味情報を効率よく捉えるために,深い点ストリームを採用することにより,ボクセル化シーンを点雲に転送する。一方、2つの3次元畳み込み層のみを含む軽量ボクセルストリームは、ボクセル化されたシーンの局所構造を保存する。さらに、ボクセルストリームからポイントストリームに構造の詳細を融合する異方性ボクセルアグリゲーション演算子と、ポイントストリームにおけるアップサンプリングプロセスを意味ラベルによって強化する意味認識伝播モジュールを設計した。入力として深度画像しか持たない2つのベンチマークにおいて,我々のモデルが最先端をはるかに上回ることを示す。

関連論文リスト

Multi-Resolution Alignment for Voxel Sparsity in Camera-Based 3D Semantic Scene Completion [52.959716866316604]
カメラベースの3Dセマンティックシーン補完(SSC)は、周囲の3Dシーンにおける各ボクセルの幾何学的占有度と意味ラベルを画像入力で評価するためのコスト効率の良いソリューションを提供する。既存の手法は、自律運転シナリオにおけるボクセルの大部分が空であるので、ボクセルの空間性という課題に直面している。カメラを用いた3Dセマンティックシーン補完におけるボクセル空間の分散を緩和するために,textitMulti-Resolution Alignment (MRA) アプローチを提案する。
論文参考訳（メタデータ） (2026-02-03T10:46:51Z)
PVNet: Point-Voxel Interaction LiDAR Scene Upsampling Via Diffusion Models [57.02789948234898]
拡散モデルに基づく点-ボクセル相互作用フレームワークであるPVNetを提案する。具体的には、スパース点雲を誘導条件とし、近くのフレームから得られた合成点雲を入力とする。さらに,各アップサンプリング点の環境認識能力を効率よく向上する点とボクセルの両方の機能を統合する点とボクセルの相互作用モジュールを提案する。
論文参考訳（メタデータ） (2025-08-23T14:55:03Z)
VoxDet: Rethinking 3D Semantic Occupancy Prediction as Dense Object Detection [67.09867723723934]
3Dのセマンティック占有予測は,周囲環境の3D形状とセマンティックスを再構築することを目的としている。密接なボクセルラベルでは、以前の研究は通常、これを密接なセグメンテーションタスクとして定式化し、それぞれのボクセルを独立に分類する。本稿では,Voxelレベルの占有率予測を高密度オブジェクト検出として再構成する,インスタンス中心のフレームワークであるVoxDetを提案する。
論文参考訳（メタデータ） (2025-06-05T04:31:55Z)
VoxRep: Enhancing 3D Spatial Understanding in 2D Vision-Language Models via Voxel Representation [0.0]
ボクセルグリッドは3次元空間の構造的表現を提供するが、高レベルの意味を抽出することは依然として困難である。本稿では,VLM(Vision-Language Model)を用いて,ボクセルデータから"voxel semantics"オブジェクトの識別,色,位置を抽出する手法を提案する。
論文参考訳（メタデータ） (2025-03-27T07:07:11Z)
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文参考訳（メタデータ） (2024-07-02T09:11:17Z)
N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文参考訳（メタデータ） (2024-03-16T18:50:44Z)
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion [129.5975573092919]
VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。 2D画像のみから完全な3Dセマンティクスを出力できる。我々のフレームワークは、幾何学の20.0%と意味論の18.1%を相対的に改善し、芸術の状態を上回ります。
論文参考訳（メタデータ） (2023-02-23T18:59:36Z)
Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from Point Clouds [16.69887974230884]
Transformerは多くの2次元視覚タスクで有望なパフォーマンスを示した。ポイントクラウドは長いシーケンスであり、3D空間に不均一に分散しているため、大規模なポイントクラウドデータの自己アテンションを計算するのは困難である。既存の方法は、通常、ポイントを同じ大きさのクラスタにグループ化したり、離散化された表現に対して畳み込み的な自己アテンションを実行することによって、自己アテンションを局所的に計算する。本稿では,Voxel Set Transformer (VoxSeT) と呼ばれる新しいボクセルベースアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-03-19T12:31:46Z)
Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文参考訳（メタデータ） (2021-09-06T14:10:22Z)
A Real-Time Online Learning Framework for Joint 3D Reconstruction and Semantic Segmentation of Indoor Scenes [87.74952229507096]
本稿では,屋内シーンの3次元構造とセマンティックラベルを協調的に復元するリアルタイムオンライン視覚フレームワークを提案する。列車時、ノイズの多い深度マップ、カメラ軌跡、および2Dセマンティックラベルを与えられたニューラルネットワークは、シーン空間に適切なセマンティックラベルでフレームの奥行きを融合させることを学習する。
論文参考訳（メタデータ） (2021-08-11T14:29:01Z)
Semantic Scene Completion using Local Deep Implicit Functions on LiDAR Data [4.355440821669468]
本稿では,シーン補完のための新しい学習手法として,局所的な深層インプリシット関数に基づくシーン分割ネットワークを提案する。この連続表現は、空間的離散化を必要とせず、広い屋外シーンの幾何学的・意味的な特性を符号化するのに適していることを示す。実験により,本手法が与えられたシーンの高密度な3次元記述にデコード可能な強力な表現を生成することを確認した。
論文参考訳（メタデータ） (2020-11-18T07:39:13Z)
Multi view stereo with semantic priors [3.756550107432323]
我々は,オープンソースライブラリ OpenMVS に実装されている3次元シーンの標準的な3次元再構成を,セマンティックプリエントを用いて支援することを目的としている。可能なエラーを除去し、ラベルごとにセグメント化された点雲を選択的に取得するために、余分な意味制約を課す。
論文参考訳（メタデータ） (2020-07-05T11:30:29Z)
3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文参考訳（メタデータ） (2020-03-31T09:33:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。