論文の概要: FIDNet: LiDAR Point Cloud Semantic Segmentation with Fully Interpolation
Decoding
- arxiv url: http://arxiv.org/abs/2109.03787v1
- Date: Wed, 8 Sep 2021 17:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:36:22.206550
- Title: FIDNet: LiDAR Point Cloud Semantic Segmentation with Fully Interpolation
Decoding
- Title(参考訳): FIDNet: 完全補間デコードによるLiDARポイントクラウドセマンティックセグメンテーション
- Authors: Yiming Zhao, Lin Bai, and Xinming Huang
- Abstract要約: 2次元球面領域画像上に点雲を投影すると、LiDARセマンティックセマンティックセマンティックセマンティクスがレンジ画像上の2次元セマンティクスタスクに変換される。
本稿では,新しいネットワーク構造と効率的な後処理ステップからなる投影型LiDARセマンティックセマンティックセマンティクスパイプラインを提案する。
我々のパイプラインは、40倍の2048$の解像度を持つプロジェクションベースのメソッドと、すべてのポイントワイズソリューションの中で、最高のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 5.599306291149907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Projecting the point cloud on the 2D spherical range image transforms the
LiDAR semantic segmentation to a 2D segmentation task on the range image.
However, the LiDAR range image is still naturally different from the regular 2D
RGB image; for example, each position on the range image encodes the unique
geometry information. In this paper, we propose a new projection-based LiDAR
semantic segmentation pipeline that consists of a novel network structure and
an efficient post-processing step. In our network structure, we design a FID
(fully interpolation decoding) module that directly upsamples the
multi-resolution feature maps using bilinear interpolation. Inspired by the 3D
distance interpolation used in PointNet++, we argue this FID module is a 2D
version distance interpolation on $(\theta, \phi)$ space. As a parameter-free
decoding module, the FID largely reduces the model complexity by maintaining
good performance. Besides the network structure, we empirically find that our
model predictions have clear boundaries between different semantic classes.
This makes us rethink whether the widely used K-nearest-neighbor
post-processing is still necessary for our pipeline. Then, we realize the
many-to-one mapping causes the blurring effect that some points are mapped into
the same pixel and share the same label. Therefore, we propose to process those
occluded points by assigning the nearest predicted label to them. This NLA
(nearest label assignment) post-processing step shows a better performance than
KNN with faster inference speed in the ablation study. On the SemanticKITTI
dataset, our pipeline achieves the best performance among all projection-based
methods with $64 \times 2048$ resolution and all point-wise solutions. With a
ResNet-34 as the backbone, both the training and testing of our model can be
finished on a single RTX 2080 Ti with 11G memory. The code is released.
- Abstract(参考訳): 2次元球面距離画像上の点雲を投影すると、ライダー意味セグメンテーションを距離画像上の2次元セグメンテーションタスクに変換する。
しかし、lidar範囲画像は、通常の2d rgb画像とは自然に異なり、例えば、距離画像上の各位置は、一意な幾何学情報を符号化する。
本稿では,新しいネットワーク構造と効率的な後処理ステップからなる,新しい投影型lidarセマンティクスセグメンテーションパイプラインを提案する。
ネットワーク構造において,双線型補間を用いて,マルチレゾリューション特徴マップを直接アップサンプリングするfid(fully interpolation decoding)モジュールを設計した。
PointNet++で使われる3D距離補間にインスパイアされたこのFIDモジュールは、$(\theta, \phi)$スペース上の2Dバージョン距離補間である。
パラメータフリーデコードモジュールとして、FIDは優れた性能を維持することでモデルの複雑さを大幅に減らす。
ネットワーク構造に加えて、モデル予測が異なる意味クラスの間に明確な境界を持つことを実証的に見出します。
これにより、パイプラインに広く使われているk-nearest-neighbor後処理が必要であるかどうかを再考できます。
そして,多対一マッピングによって,複数の点が同じ画素にマッピングされ,同じラベルを共有するようなぼやけ効果が生じることを認識した。
そこで本研究では,最寄りのラベルをアサインすることで,隠蔽点の処理を提案する。
この NLA (nearest label assignment) 後処理ステップは、アブレーション研究において高速な推論速度を持つKNNよりも優れた性能を示す。
SemanticKITTIデータセットでは,604 \times 2048$の解像度を持つプロジェクションベースのメソッドと,すべてのポイントワイズソリューションで最高のパフォーマンスを実現しています。
ResNet-34をバックボーンとして、我々のモデルのトレーニングとテストは、11Gメモリを備えた単一のRTX 2080 Tiで完了する。
コードはリリースされている。
関連論文リスト
- Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - SATR: Zero-Shot Semantic Segmentation of 3D Shapes [74.08209893396271]
大規模オフザシェルフ2次元画像認識モデルを用いて3次元形状のゼロショットセマンティックセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では、SATRアルゴリズムを開発し、ShapeNetPartと提案したFAUSTベンチマークを用いて評価する。
SATRは最先端のパフォーマンスを達成し、ベースラインアルゴリズムを平均mIoUの1.3%と4%で上回っている。
論文 参考訳(メタデータ) (2023-04-11T00:43:16Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - RangeSeg: Range-Aware Real Time Segmentation of 3D LiDAR Point Clouds [0.6119392435448721]
本稿では、異なるLiDARレーザビームの不均一領域分布の利点を生かし、レンジアウェア・インスタンスセグメンテーション・ネットワークであるレンジセグメンテーション・ネットワークを提案する。
KITTIデータセットの実験では、RangeSegは最先端のセマンティックセマンティックセグメンテーション手法よりも、大幅に高速化されている。
RangeSegパイプライン全体はNVIDIAtextsuperscripttextregistered JETSON AGX Xavierのリアルタイム要件を満たしている。
論文 参考訳(メタデータ) (2022-05-02T09:57:59Z) - Meta-RangeSeg: LiDAR Sequence Semantic Segmentation Using Multiple
Feature Aggregation [21.337629798133324]
メタランジセグと呼ばれるLiDAR配列のセマンティックセグメンテーションに対する新しいアプローチを提案する。
空間時間情報をキャプチャするために、新しい範囲残像表現を導入する。
マルチスケール機能を得るために、効率的なU-Netバックボーンが使用される。
論文 参考訳(メタデータ) (2022-02-27T14:46:13Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - To the Point: Efficient 3D Object Detection in the Range Image with
Graph Convolution Kernels [30.3378171262436]
我々は,各画素の3次元球面座標を網羅する2次元畳み込みネットワークアーキテクチャを設計する。
提案手法はオープンデータセット上で競合的に動作し,歩行者検出の最先端APを69.7%から75.5%に改善する。
私たちの最小のモデルは、今でも人気の高いPointPillarsを上回り、180倍のFLOPSとモデルパラメータを必要としています。
論文 参考訳(メタデータ) (2021-06-25T01:27:26Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z) - Learning to Segment 3D Point Clouds in 2D Image Space [20.119802932358333]
2次元画像空間に3次元点雲を効率よく投影する方法を示す。
U-Netのような従来の2D畳み込みニューラルネットワーク(CNN)はセグメンテーションに適用できる。
論文 参考訳(メタデータ) (2020-03-12T03:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。