論文の概要: FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point
Cloud Segmentation
- arxiv url: http://arxiv.org/abs/2103.00738v1
- Date: Mon, 1 Mar 2021 04:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:40:18.171275
- Title: FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point
Cloud Segmentation
- Title(参考訳): FPS-Net: 大規模LiDARポイントクラウドセグメンテーションのための畳み込みネットワーク
- Authors: Aoran Xiao, Xiaofei Yang, Shijian Lu, Dayan Guan and Jiaxing Huang
- Abstract要約: LiDARポイントクラウドに基づくシーン理解は、自動運転車が安全に運転するのに不可欠なタスクです。
既存のほとんどのメソッドは、情報容量を増やすために、画像チャネルとして異なるポイント属性/モダリティを積み重ねる。
fps-netは,最適なポイントクラウドセグメンテーションのために,投影画像チャネル間の一意性と不一致を生かす畳み込み型融合ネットワークである。
- 参考スコア(独自算出の注目度): 30.736361776703568
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scene understanding based on LiDAR point cloud is an essential task for
autonomous cars to drive safely, which often employs spherical projection to
map 3D point cloud into multi-channel 2D images for semantic segmentation. Most
existing methods simply stack different point attributes/modalities (e.g.
coordinates, intensity, depth, etc.) as image channels to increase information
capacity, but ignore distinct characteristics of point attributes in different
image channels. We design FPS-Net, a convolutional fusion network that exploits
the uniqueness and discrepancy among the projected image channels for optimal
point cloud segmentation. FPS-Net adopts an encoder-decoder structure. Instead
of simply stacking multiple channel images as a single input, we group them
into different modalities to first learn modality-specific features separately
and then map the learned features into a common high-dimensional feature space
for pixel-level fusion and learning. Specifically, we design a residual dense
block with multiple receptive fields as a building block in the encoder which
preserves detailed information in each modality and learns hierarchical
modality-specific and fused features effectively. In the FPS-Net decoder, we
use a recurrent convolution block likewise to hierarchically decode fused
features into output space for pixel-level classification. Extensive
experiments conducted on two widely adopted point cloud datasets show that
FPS-Net achieves superior semantic segmentation as compared with
state-of-the-art projection-based methods. In addition, the proposed modality
fusion idea is compatible with typical projection-based methods and can be
incorporated into them with consistent performance improvements.
- Abstract(参考訳): LiDARポイントクラウドに基づくシーン理解は、自動運転車が安全に運転する上で不可欠なタスクであり、3Dポイントクラウドをセマンティックセグメンテーションのためのマルチチャネル2Dイメージにマッピングするために、球状のプロジェクションを利用することが多い。
ほとんどの既存のメソッドは、単に異なるポイント属性/モダリティ(例えば)をスタックする。
座標、強度、深さなど
画像チャンネルとして、情報容量を増加させるが、異なる画像チャンネルのポイント属性の異なる特性を無視する。
fps-netは,最適なポイントクラウドセグメンテーションのために,投影画像チャネル間の一意性と不一致を生かす畳み込み型融合ネットワークである。
FPS-Netはエンコーダデコーダ構造を採用。
単一の入力として複数のチャンネルイメージを積み重ねる代わりに、それらを異なるモダリティに分類して、最初にモダリティ固有の特徴を別々に学習し、学習した特徴をピクセルレベルの融合と学習のための共通の高次元特徴空間にマップします。
具体的には、各モダリティの詳細な情報を保存し、階層的モダリティ特有かつ融合した特徴を効果的に学習するエンコーダのビルディングブロックとして、複数の受容場を有する残密ブロックを設計する。
FPS-Netデコーダでは、繰り返し畳み込みブロックを用いて融合した特徴を階層的に復号し、ピクセルレベルの分類を行う。
2つの広く採用されている点群データセット上での広範な実験は、FPS-Netが最先端の投影ベースの方法と比較して優れたセマンティックセグメンテーションを実現することを示している。
さらに,提案手法は一般的な射影法と互換性があり,一貫した性能向上が期待できる。
関連論文リスト
- Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching [2.400446821380503]
我々はRGB画像とポイントクラウドの両方のディスクリプタを学習するための効率的なフレームワークを導入する。
視覚状態空間モデル(VMamba)をバックボーンとして、ピクセルビューとシーンの共同トレーニング戦略を採用している。
視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。
論文 参考訳(メタデータ) (2024-10-08T18:31:41Z) - DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [62.63481844384229]
ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。
本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。
我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
論文 参考訳(メタデータ) (2024-06-05T01:32:31Z) - Few-Shot 3D Point Cloud Semantic Segmentation via Stratified
Class-Specific Attention Based Transformer Network [22.9434434107516]
数ショットのクラウドセマンティックセマンティックセグメンテーションのための新しい多層トランスフォーマーネットワークを開発した。
提案手法は,既存の数ショットの3Dポイントクラウドセグメンテーションモデルよりも15%少ない推論時間で,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T00:27:54Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Action Keypoint Network for Efficient Video Recognition [63.48422805355741]
本稿では、時間的・空間的な選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案する。
AK-Netは、アクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
実験結果から,AK-Netは複数のビデオ認識ベンチマークにおいて,ベースライン手法の効率と性能を一貫して向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-17T09:35:34Z) - Multi-Scale Feature Fusion: Learning Better Semantic Segmentation for
Road Pothole Detection [9.356003255288417]
本稿では,単一モーダルなセマンティックセグメンテーションに基づく新しいポットホール検出手法を提案する。
まず、畳み込みニューラルネットワークを用いて入力画像から視覚的特徴を抽出する。
チャネルアテンションモジュールは、異なるフィーチャーマップの一貫性を高めるために、チャネル機能を再考する。
論文 参考訳(メタデータ) (2021-12-24T15:07:47Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - Sharp U-Net: Depthwise Convolutional Network for Biomedical Image
Segmentation [1.1501261942096426]
U-Netはバイオメディカルイメージセグメンテーションに有効であることが証明されている。
我々は,シャープU-Netと呼ばれる,シンプルで効果的なエンコーダ・デコーダ完全畳み込み型ネットワークアーキテクチャを提案する。
実験の結果,提案したシャープU-Netモデルは,2進および多進のセグメンテーションタスクにおいて,最新の最先端ベースラインより一貫して優れているか,あるいは一致していることがわかった。
論文 参考訳(メタデータ) (2021-07-26T20:27:25Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Evidential fully convolutional network for semantic segmentation [6.230751621285322]
本稿では,完全畳み込みネットワーク(fcn)と,イメージセマンティクスセグメンテーションのためのデンプスターシェーファー層からなるハイブリッドアーキテクチャを提案する。
提案手法は,多クラス集合に混乱する画素を割り当てることで,意味セグメンテーションの精度とキャリブレーションを改善することを示す。
論文 参考訳(メタデータ) (2021-03-25T01:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。