論文の概要: Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding
- arxiv url: http://arxiv.org/abs/2011.14358v1
- Date: Sun, 29 Nov 2020 12:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 09:02:32.158436
- Title: Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding
- Title(参考訳): 大規模3次元シーン理解のための深部3次元空間符号化の探索
- Authors: Saqib Ali Khan, Yilei Shi, Muhammad Shahzad, Xiao Xiang Zhu
- Abstract要約: 生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
- 参考スコア(独自算出の注目度): 19.134536179555102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation of raw 3D point clouds is an essential component in 3D
scene analysis, but it poses several challenges, primarily due to the
non-Euclidean nature of 3D point clouds. Although, several deep learning based
approaches have been proposed to address this task, but almost all of them
emphasized on using the latent (global) feature representations from
traditional convolutional neural networks (CNN), resulting in severe loss of
spatial information, thus failing to model the geometry of the underlying 3D
objects, that plays an important role in remote sensing 3D scenes. In this
letter, we have proposed an alternative approach to overcome the limitations of
CNN based approaches by encoding the spatial features of raw 3D point clouds
into undirected symmetrical graph models. These encodings are then combined
with a high-dimensional feature vector extracted from a traditional CNN into a
localized graph convolution operator that outputs the required 3D segmentation
map. We have performed experiments on two standard benchmark datasets
(including an outdoor aerial remote sensing dataset and an indoor synthetic
dataset). The proposed method achieves on par state-of-the-art accuracy with
improved training time and model stability thus indicating strong potential for
further research towards a generalized state-of-the-art method for 3D scene
understanding.
- Abstract(参考訳): 生の3D点雲のセマンティックセグメンテーションは3Dシーン解析において重要な要素であるが、主に3D点雲の非ユークリッド性のためにいくつかの課題が生じる。
しかし、そのほとんどが従来の畳み込みニューラルネットワーク(cnn)からの潜在的(グローバル)特徴表現を使うことに重点を置いており、空間情報の深刻な損失をもたらし、それによって基盤となる3dオブジェクトの形状のモデル化に失敗し、3dシーンのリモートセンシングにおいて重要な役割を果たす。
本稿では,生の3次元点雲の空間的特徴を非向対称グラフモデルにエンコードすることにより,cnnに基づくアプローチの限界を克服するための代替手法を提案する。
これらのエンコーディングは、従来のCNNから抽出された高次元特徴ベクトルと結合して、必要な3次元分割マップを出力する局所グラフ畳み込み演算子となる。
2つの標準ベンチマークデータセット(屋外空中リモートセンシングデータセットと屋内合成データセットを含む)について実験を行った。
提案手法は,訓練時間とモデルの安定性を向上し,同等の精度を実現し,3次元シーン理解のための一般化された最先端手法へのさらなる研究の可能性を示唆する。
関連論文リスト
- DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR
Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。
そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文 参考訳(メタデータ) (2020-11-19T18:53:11Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z) - Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point
Clouds of Wild Scenes [36.07733308424772]
3Dセグメンテーションラベルの欠如は、効率的な点雲セグメンテーションの主な障害の1つである。
本稿では,2D のみを監督する点群における大規模セマンティックシーンセグメンテーションのための,新しいディープグラフ畳み込みネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-26T23:02:23Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z) - Pointwise Attention-Based Atrous Convolutional Neural Networks [15.499267533387039]
多数の点を効率的に扱うために,注目度に基づくアトラス畳み込みニューラルネットワークアーキテクチャを提案する。
提案モデルは,3次元セマンティックセグメンテーションタスクにおいて,最も重要な2つの3Dポイントクラウドデータセット上で評価されている。
精度の面では最先端モデルと比較して妥当な性能を達成し、パラメータの数ははるかに少ない。
論文 参考訳(メタデータ) (2019-12-27T13:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。