論文の概要: Focal Sparse Convolutional Networks for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2204.12463v1
- Date: Tue, 26 Apr 2022 17:34:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 12:36:00.681346
- Title: Focal Sparse Convolutional Networks for 3D Object Detection
- Title(参考訳): 3次元物体検出のための焦点スパース畳み込みネットワーク
- Authors: Yukang Chen, Yanwei Li, Xiangyu Zhang, Jian Sun, Jiaya Jia
- Abstract要約: 我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
- 参考スコア(独自算出の注目度): 121.45950754511021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-uniformed 3D sparse data, e.g., point clouds or voxels in different
spatial positions, make contribution to the task of 3D object detection in
different ways. Existing basic components in sparse convolutional networks
(Sparse CNNs) process all sparse data, regardless of regular or submanifold
sparse convolution. In this paper, we introduce two new modules to enhance the
capability of Sparse CNNs, both are based on making feature sparsity learnable
with position-wise importance prediction. They are focal sparse convolution
(Focals Conv) and its multi-modal variant of focal sparse convolution with
fusion, or Focals Conv-F for short. The new modules can readily substitute
their plain counterparts in existing Sparse CNNs and be jointly trained in an
end-to-end fashion. For the first time, we show that spatially learnable
sparsity in sparse convolution is essential for sophisticated 3D object
detection. Extensive experiments on the KITTI, nuScenes and Waymo benchmarks
validate the effectiveness of our approach. Without bells and whistles, our
results outperform all existing single-model entries on the nuScenes test
benchmark at the paper submission time. Code and models are at
https://github.com/dvlab-research/FocalsConv.
- Abstract(参考訳): 非均一な3Dスパースデータ(例えば、異なる空間位置にある点雲やボクセル)は、異なる方法で3Dオブジェクト検出のタスクに寄与する。
スパース畳み込みネットワーク(スパースcnn)の既存の基本コンポーネントは、正規またはサブマニフォールドのスパース畳み込みに関係なく、スパースデータを全て処理する。
本稿では,sparse cnnの機能を向上させるための2つのモジュールについて紹介する。
focal sparse convolution (focals conv) であり、focal sparse convolution with fusion または focals conv-f の多変種である。
新しいモジュールは、既存のスパースcnnに簡単に置き換えることができ、エンドツーエンドで共同でトレーニングすることができる。
複雑な3次元物体検出に空間的に学習可能な疎結合性が不可欠であることを示す。
KITTI、nuScenes、Waymoベンチマークに関する大規模な実験は、我々のアプローチの有効性を検証する。
論文提出時点のnuscenesテストベンチマークでは,既存の単一モデルのエントリをすべて上回っています。
コードとモデルはhttps://github.com/dvlab-research/focalsconvにある。
関連論文リスト
- Spherical Frustum Sparse Convolution Network for LiDAR Point Cloud Semantic Segmentation [62.258256483231484]
LiDARポイントクラウドセマンティックセグメンテーションにより、ロボットは周囲の環境のきめ細かいセマンティック情報を得ることができる。
多くの研究が2Dイメージ上にポイントクラウドを投影し、LiDARポイントクラウドセマンティックセグメンテーションのための2D畳み込みニューラルネットワーク(CNN)またはビジョントランスフォーマーを採用する。
本稿では,情報損失の定量化を回避するために,新しい球状フラストラム構造を提案する。
論文 参考訳(メタデータ) (2023-11-29T09:55:13Z) - SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor
3D Object Detection [84.09798649295038]
物体がシーンのごく一部を占めることを考えると、密度の高い候補を見つけ、密度の高い表現を生成するのは騒々しく非効率である。
スパース候補とスパース表現のみを用いた新しいマルチセンサ3D検出法であるスパースフュージョンを提案する。
SparseFusionは、nuScenesベンチマークで最先端のパフォーマンスを達成しつつ、高速で動作し、バックボーンがより強力なメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-04-27T17:17:39Z) - A Closer Look at Few-Shot 3D Point Cloud Classification [21.57893885371941]
本稿では,SPF (Salient-Part Fusion) モジュール,SCI+ (Self-Channel Interaction Plus) モジュール,CIF+ (Cross-Instance Fusion Plus) モジュールという3つの新しいプラグ・アンド・プレイコンポーネントを備えた新しいネットワーク PCIA を提案する。
これらのモジュールは、小さな変更を伴ってほとんどのFSLアルゴリズムに挿入でき、性能が大幅に向上する。
3つのベンチマークデータセット、ModelNet40-FS、ShapeNet70-FS、ScanObjectNN-FSの実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T17:01:13Z) - A Unified BEV Model for Joint Learning of 3D Local Features and Overlap
Estimation [12.499361832561634]
本稿では,3次元局所特徴の同時学習と重なり推定のための統合鳥眼ビュー(BEV)モデルを提案する。
提案手法は,特に重複の少ないシーンにおいて,重複予測における既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-28T12:01:16Z) - Using a Waffle Iron for Automotive Point Cloud Semantic Segmentation [66.6890991207065]
スパース3D畳み込みは、ディープニューラルネットワークを構築するためのデファクトツールとなっている。
本稿では,スパース畳み込みを必要とせず,最先端の手法に到達できる方法を提案する。
このような性能のレベルは、大規模かつ高性能な3D知覚に相応しいツールに依存して達成可能であることを示す。
論文 参考訳(メタデータ) (2023-01-24T16:10:08Z) - Spatial Pruned Sparse Convolution for Efficient 3D Object Detection [41.62839541489369]
3Dシーンは多数のバックグラウンドポイントによって支配されており、主に前景オブジェクトにフォーカスする必要がある検出タスクには冗長である。
本稿では,既存の3D CNNの主要なコンポーネントを分析し,データの冗長性を無視し,さらにダウンサンプリングプロセスでそれを増幅することにより,余分な計算オーバーヘッドと不要な計算オーバーヘッドを発生させる。
SPS-ConvとSPSS-ConvとSPRSの2つの変種を含む新しい畳み込み演算子を提案する。
論文 参考訳(メタデータ) (2022-09-28T16:19:06Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - The Devils in the Point Clouds: Studying the Robustness of Point Cloud
Convolutions [15.997907568429177]
本稿では,点群上の畳み込みネットワークであるPointConvの異なる変種を調査し,入力スケールと回転変化に対する堅牢性を検討する。
3次元幾何学的性質をpointconvへの入力として利用し,新しい視点不変ディスクリプタを導出する。
2D MNIST & CIFAR-10データセットと3D Semantic KITTI & ScanNetデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-01-19T19:32:38Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - D3Feat: Joint Learning of Dense Detection and Description of 3D Local
Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。
本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。
本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-03-06T12:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。