論文の概要: S3CNet: A Sparse Semantic Scene Completion Network for LiDAR Point
Clouds
- arxiv url: http://arxiv.org/abs/2012.09242v1
- Date: Wed, 16 Dec 2020 20:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 07:01:30.258194
- Title: S3CNet: A Sparse Semantic Scene Completion Network for LiDAR Point
Clouds
- Title(参考訳): S3CNet:LiDARポイントクラウドのためのスパースセマンティックシーンコンプリートネットワーク
- Authors: Ran Cheng, Christopher Agia, Yuan Ren, Xinhai Li, Liu Bingbing
- Abstract要約: S3CNetはスパース畳み込みに基づくニューラルネットワークで、単一で統一されたLiDARポイントクラウドからセマンティックに完了したシーンを予測する。
提案手法は,Semantic KITTI ベンチマークを用いて,3次元課題における全ての課題に対して優れることを示す。
- 参考スコア(独自算出の注目度): 0.16799377888527683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing reliance of self-driving and similar robotic systems on
robust 3D vision, the processing of LiDAR scans with deep convolutional neural
networks has become a trend in academia and industry alike. Prior attempts on
the challenging Semantic Scene Completion task - which entails the inference of
dense 3D structure and associated semantic labels from "sparse" representations
- have been, to a degree, successful in small indoor scenes when provided with
dense point clouds or dense depth maps often fused with semantic segmentation
maps from RGB images. However, the performance of these systems drop
drastically when applied to large outdoor scenes characterized by dynamic and
exponentially sparser conditions. Likewise, processing of the entire sparse
volume becomes infeasible due to memory limitations and workarounds introduce
computational inefficiency as practitioners are forced to divide the overall
volume into multiple equal segments and infer on each individually, rendering
real-time performance impossible. In this work, we formulate a method that
subsumes the sparsity of large-scale environments and present S3CNet, a sparse
convolution based neural network that predicts the semantically completed scene
from a single, unified LiDAR point cloud. We show that our proposed method
outperforms all counterparts on the 3D task, achieving state-of-the art results
on the SemanticKITTI benchmark. Furthermore, we propose a 2D variant of S3CNet
with a multi-view fusion strategy to complement our 3D network, providing
robustness to occlusions and extreme sparsity in distant regions. We conduct
experiments for the 2D semantic scene completion task and compare the results
of our sparse 2D network against several leading LiDAR segmentation models
adapted for bird's eye view segmentation on two open-source datasets.
- Abstract(参考訳): 自動運転車や類似のロボットシステムが堅牢な3Dビジョンに依存しているため、深い畳み込みニューラルネットワークによるLiDARスキャンの処理は、アカデミックや産業でもトレンドになっている。
密集した3d構造と関連する意味ラベルを「スパース」表現から推論する、難易度の高いセマンティックシーン補完タスクの以前の試みは、密集点雲や密集深度マップがrgb画像からのセマンティックセグメンテーションマップと融合する場合に、ある程度屋内の小さなシーンでうまくいった。
しかし, 動的かつ指数関数的にスパルサー条件を特徴とする大規模屋外シーンに適用すると, これらのシステムの性能は大幅に低下する。
同様に、sparseボリューム全体の処理はメモリの制限や回避策によって実現不可能となり、全体的なボリュームを複数の等しいセグメントに分割し、個別に推測せざるを得なくなり、リアルタイムパフォーマンスが不可能になるため、計算効率が低下する。
本研究では,大規模環境の疎結合性を仮定した手法を定式化し,単一のlidar点クラウドから意味的に完結したシーンを予測する疎畳み型ニューラルネットワークs3cnetを提案する。
提案手法は,SemanticKITTIベンチマークを用いて,3次元課題における全ての課題に優れることを示す。
さらに,3次元ネットワークを補完する多視点融合戦略を備えたS3CNetの2次元変種を提案する。
2Dセマンティックシーン完了タスクの実験を行い、2つのオープンソースデータセット上での鳥の目視分割に適応したいくつかの主要なLiDARセグメンテーションモデルと比較した。
関連論文リスト
- Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Putting 3D Spatially Sparse Networks on a Diet [21.881294733075393]
本稿では, セマンティックセグメンテーションとインスタンスセグメンテーションのためのコンパクトで空間的にスパースな3Dコンブネット(WS3-ConvNet)を提案する。
我々は、コンパクトネットワークを見つけるために、様々なネットワークプルーニング戦略を採用し、我々のWS3-ConvNetが、最小限の性能損失(2-15%の低下)を、15%少ないパラメータ(1/100の圧縮率)で達成することを示す。
最後に、WS3-ConvNetの圧縮パターンを体系的に解析し、圧縮されたネットワークに共通する興味深いスパシティパターンを示し、推論をさらに高速化する。
論文 参考訳(メタデータ) (2021-12-02T15:20:15Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - Data Augmented 3D Semantic Scene Completion with 2D Segmentation Priors [1.0973642726108543]
本稿では,新しいマルチモーダル3DディープCNNであるSPAwNを紹介する。
この分野で重要な課題は、完全にラベル付けされた現実世界の3Dデータセットがないことである。
本稿では,マルチモーダルSCネットワークに適用可能な3次元データ拡張戦略を提案する。
論文 参考訳(メタデータ) (2021-11-26T04:08:34Z) - Semantic Dense Reconstruction with Consistent Scene Segments [33.0310121044956]
RGB-Dシーケンスから高レベルなシーン理解タスクを解くために,RGB-Dシーケンスから高密度なセマンティック3Dシーンを再構築する手法を提案する。
まず、各RGB-Dペアは、カメラ追跡バックボーンに基づいて、一貫して2Dセマンティックマップに分割される。
入力されたRGB-Dシーケンスから未知環境の高密度3Dメッシュモデルを漸進的に生成する。
論文 参考訳(メタデータ) (2021-09-30T03:01:17Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - S3Net: 3D LiDAR Sparse Semantic Segmentation Network [1.330528227599978]
S3NetはLiDARポイントクラウドセマンティックセグメンテーションのための新しい畳み込みニューラルネットワークである。
sparse intra-channel attention module (sintraam)とsparse inter-channel attention module (sinteram)で構成されるエンコーダ-デコーダバックボーンを採用する。
論文 参考訳(メタデータ) (2021-03-15T22:15:24Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。