論文の概要: VoxelTrack: Exploring Voxel Representation for 3D Point Cloud Object Tracking
- arxiv url: http://arxiv.org/abs/2408.02263v1
- Date: Mon, 5 Aug 2024 06:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 14:26:02.842930
- Title: VoxelTrack: Exploring Voxel Representation for 3D Point Cloud Object Tracking
- Title(参考訳): VoxelTrack: 3Dポイントクラウドオブジェクト追跡のためのVoxel表現の探索
- Authors: Yuxuan Lu, Jiahao Nie, Zhiwei He, Hongjie Gu, Xudong Lv,
- Abstract要約: 現在のLiDARポイントクラウドベースの3Dオブジェクトトラッキング(SOT)手法は、通常、ポイントベースの表現ネットワークに依存している。
本稿では,VoxelTrackと呼ばれる新しいトラッキングフレームワークを紹介する。
本質的に乱れた点雲を3Dボクセルにボクセル化することで、VoxelTrackは正確で堅牢な3D空間情報を効果的にモデル化する。
- 参考スコア(独自算出の注目度): 3.517993407670811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current LiDAR point cloud-based 3D single object tracking (SOT) methods typically rely on point-based representation network. Despite demonstrated success, such networks suffer from some fundamental problems: 1) It contains pooling operation to cope with inherently disordered point clouds, hindering the capture of 3D spatial information that is useful for tracking, a regression task. 2) The adopted set abstraction operation hardly handles density-inconsistent point clouds, also preventing 3D spatial information from being modeled. To solve these problems, we introduce a novel tracking framework, termed VoxelTrack. By voxelizing inherently disordered point clouds into 3D voxels and extracting their features via sparse convolution blocks, VoxelTrack effectively models precise and robust 3D spatial information, thereby guiding accurate position prediction for tracked objects. Moreover, VoxelTrack incorporates a dual-stream encoder with cross-iterative feature fusion module to further explore fine-grained 3D spatial information for tracking. Benefiting from accurate 3D spatial information being modeled, our VoxelTrack simplifies tracking pipeline with a single regression loss. Extensive experiments are conducted on three widely-adopted datasets including KITTI, NuScenes and Waymo Open Dataset. The experimental results confirm that VoxelTrack achieves state-of-the-art performance (88.3%, 71.4% and 63.6% mean precision on the three datasets, respectively), and outperforms the existing trackers with a real-time speed of 36 Fps on a single TITAN RTX GPU. The source code and model will be released.
- Abstract(参考訳): 現在のLiDARポイントクラウドベースの3Dオブジェクトトラッキング(SOT)手法は、通常、ポイントベースの表現ネットワークに依存している。
成功をおさめたにもかかわらず、このようなネットワークはいくつかの根本的な問題に悩まされている。
1)自然に乱れた点雲に対処するためのプール操作を含み、回帰作業であるトラッキングに有用な3次元空間情報の捕捉を妨げる。
2) 集合抽象演算は密度不整点の雲をほとんど扱わず、3次元空間情報がモデル化されるのを防ぐ。
これらの問題を解決するために,VoxelTrackと呼ばれる新しいトラッキングフレームワークを導入する。
固有に乱れた点雲を3Dボクセルにボクセル化し、その特徴をスパース畳み込みブロックで抽出することにより、VoxelTrackは精度が高く頑健な3次元空間情報を効果的にモデル化し、追跡対象の正確な位置予測を導く。
さらに、VoxelTrackには、クロスイテレーティブな特徴融合モジュールを備えたデュアルストリームエンコーダが組み込まれており、トラッキングのための詳細な3次元空間情報を探索することができる。
正確な3次元空間情報をモデル化することで、VoxelTrackは単一の回帰損失でトラッキングパイプラインを単純化します。
大規模な実験は、KITTI、NuScenes、Waymo Open Datasetなど、広く採用されている3つのデータセットで実施されている。
実験の結果、VoxelTrackは最先端のパフォーマンス(それぞれ3つのデータセットの平均精度88.3%、71.4%、63.6%)を達成し、1つのTITAN RTX GPU上で36Fpsのリアルタイム速度で既存のトラッカーを上回っていることがわかった。
ソースコードとモデルがリリースされる。
関連論文リスト
- VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking [78.25819070166351]
完全スパース3次元物体検出のためのVoxelNextを提案する。
私たちの中核となる洞察は、手作りのプロキシに頼ることなく、スパースボクセル機能に基づいてオブジェクトを直接予測することです。
私たちの強力なスパース畳み込みネットワークVoxelNeXtは、voxelの機能を通して3Dオブジェクトを検出し、追跡します。
論文 参考訳(メタデータ) (2023-03-20T17:40:44Z) - CXTrack: Improving 3D Point Cloud Tracking with Contextual Information [59.55870742072618]
3Dオブジェクトトラッキングは、自律運転など、多くのアプリケーションにおいて重要な役割を果たす。
CXTrackは3次元オブジェクト追跡のためのトランスフォーマーベースのネットワークである。
CXTrackは29FPSで動作しながら最先端のトラッキング性能を実現する。
論文 参考訳(メタデータ) (2022-11-12T11:29:01Z) - A Lightweight and Detector-free 3D Single Object Tracker on Point Clouds [50.54083964183614]
生のLiDARスキャンにおける物体の点雲は、通常スパースで不完全であるため、正確な目標固有検出を行うのは簡単ではない。
DMTは、複雑な3D検出器の使用を完全に除去する3Dトラッキングネットワークである。
論文 参考訳(メタデータ) (2022-03-08T17:49:07Z) - DV-Det: Efficient 3D Point Cloud Object Detection with Dynamic
Voxelization [0.0]
本稿では,効率的な3Dポイント・クラウド・オブジェクト検出のための新しい2段階フレームワークを提案する。
生のクラウドデータを3D空間で直接解析するが、目覚ましい効率と精度を実現する。
我々は,75 FPSでKITTI 3Dオブジェクト検出データセットを,25 FPSの推論速度で良好な精度でOpenデータセット上で強調する。
論文 参考訳(メタデータ) (2021-07-27T10:07:39Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection [99.16162624992424]
Voxel R-CNNというシンプルで効果的なVoxelベースのフレームワークを考案しました。
2段階のアプローチでボクセルの特徴をフル活用することにより,最先端の点ベースモデルと同等の精度で検出できる。
その結果、Voxel R-CNNは、NVIDIA 2080 Ti GPU上での25 FPSの速度で、リアルタイムフレーム処理速度を維持しながら、より高い検出精度を提供する。
論文 参考訳(メタデータ) (2020-12-31T17:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。