論文の概要: VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking
- arxiv url: http://arxiv.org/abs/2303.11301v1
- Date: Mon, 20 Mar 2023 17:40:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 14:12:17.687711
- Title: VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking
- Title(参考訳): VoxelNeXt:3Dオブジェクト検出と追跡のための完全なスパースVoxelNet
- Authors: Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia
- Abstract要約: 完全スパース3次元物体検出のためのVoxelNextを提案する。
私たちの中核となる洞察は、手作りのプロキシに頼ることなく、スパースボクセル機能に基づいてオブジェクトを直接予測することです。
私たちの強力なスパース畳み込みネットワークVoxelNeXtは、voxelの機能を通して3Dオブジェクトを検出し、追跡します。
- 参考スコア(独自算出の注目度): 78.25819070166351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detectors usually rely on hand-crafted proxies, e.g., anchors or
centers, and translate well-studied 2D frameworks to 3D. Thus, sparse voxel
features need to be densified and processed by dense prediction heads, which
inevitably costs extra computation. In this paper, we instead propose VoxelNext
for fully sparse 3D object detection. Our core insight is to predict objects
directly based on sparse voxel features, without relying on hand-crafted
proxies. Our strong sparse convolutional network VoxelNeXt detects and tracks
3D objects through voxel features entirely. It is an elegant and efficient
framework, with no need for sparse-to-dense conversion or NMS post-processing.
Our method achieves a better speed-accuracy trade-off than other mainframe
detectors on the nuScenes dataset. For the first time, we show that a fully
sparse voxel-based representation works decently for LIDAR 3D object detection
and tracking. Extensive experiments on nuScenes, Waymo, and Argoverse2
benchmarks validate the effectiveness of our approach. Without bells and
whistles, our model outperforms all existing LIDAR methods on the nuScenes
tracking test benchmark.
- Abstract(参考訳): 3Dオブジェクト検出器は通常、手作りのプロキシ、例えばアンカーやセンターに依存し、よく研究された2Dフレームワークを3Dに変換する。
したがって、ばらばらなvoxel機能は高密度予測ヘッドによって密度化され処理される必要があり、これは必然的に余分な計算コストがかかる。
本稿では,完全な3次元物体検出のためのVoxelNextを提案する。
私たちの核となる洞察は、手作りのプロキシに頼ることなく、スパースなvoxel機能に基づいて直接オブジェクトを予測することです。
私たちの強力なスパース畳み込みネットワークVoxelNeXtは、voxelの機能を通して3Dオブジェクトを検出し、追跡します。
これはエレガントで効率的なフレームワークで、スパース・トゥ・デンス変換やnsmポストプロセッシングは不要である。
提案手法は,nuScenesデータセット上の他のメインフレーム検出器よりも高速なトレードオフを実現する。
完全にスパースなボクセルベースの表現が、LIDARの3Dオブジェクトの検出と追跡に適していることを示す。
nuScenes、Waymo、Argoverse2ベンチマークに関する大規模な実験は、我々のアプローチの有効性を検証する。
ベルとホイッスルがなければ、我々のモデルはnuScenes トラッキングテストベンチマークで既存の LIDAR メソッドよりも優れています。
関連論文リスト
- VoxelTrack: Exploring Voxel Representation for 3D Point Cloud Object Tracking [3.517993407670811]
現在のLiDARポイントクラウドベースの3Dオブジェクトトラッキング(SOT)手法は、通常、ポイントベースの表現ネットワークに依存している。
本稿では,VoxelTrackと呼ばれる新しいトラッキングフレームワークを紹介する。
本質的に乱れた点雲を3Dボクセルにボクセル化することで、VoxelTrackは正確で堅牢な3D空間情報を効果的にモデル化する。
論文 参考訳(メタデータ) (2024-08-05T06:38:43Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - A Lightweight and Detector-free 3D Single Object Tracker on Point Clouds [50.54083964183614]
生のLiDARスキャンにおける物体の点雲は、通常スパースで不完全であるため、正確な目標固有検出を行うのは簡単ではない。
DMTは、複雑な3D検出器の使用を完全に除去する3Dトラッキングネットワークである。
論文 参考訳(メタデータ) (2022-03-08T17:49:07Z) - FCAF3D: Fully Convolutional Anchor-Free 3D Object Detection [3.330229314824913]
FCAF3D - 完全畳み込み型アンカーフリー屋内3D物体検出法を提案する。
これは、点雲のボクセル表現を使用し、スパース畳み込みでボクセルを処理する、単純で効果的な方法である。
単一の完全な畳み込みフィードフォワードパスを通じて、最小限のランタイムで大規模シーンを処理できる。
論文 参考訳(メタデータ) (2021-12-01T07:28:52Z) - Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection [99.16162624992424]
Voxel R-CNNというシンプルで効果的なVoxelベースのフレームワークを考案しました。
2段階のアプローチでボクセルの特徴をフル活用することにより,最先端の点ベースモデルと同等の精度で検出できる。
その結果、Voxel R-CNNは、NVIDIA 2080 Ti GPU上での25 FPSの速度で、リアルタイムフレーム処理速度を維持しながら、より高い検出精度を提供する。
論文 参考訳(メタデータ) (2020-12-31T17:02:46Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。