論文の概要: PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection
- arxiv url: http://arxiv.org/abs/2312.08371v2
- Date: Wed, 24 Apr 2024 17:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 23:17:45.006828
- Title: PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection
- Title(参考訳): PTT:高能率時間3次元物体検出のためのポイントトラジェクトリ変換器
- Authors: Kuan-Chih Huang, Weijie Lyu, Ming-Hsuan Yang, Yi-Hsuan Tsai,
- Abstract要約: 時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
- 参考スコア(独自算出の注目度): 66.94819989912823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent temporal LiDAR-based 3D object detectors achieve promising performance based on the two-stage proposal-based approach. They generate 3D box candidates from the first-stage dense detector, followed by different temporal aggregation methods. However, these approaches require per-frame objects or whole point clouds, posing challenges related to memory bank utilization. Moreover, point clouds and trajectory features are combined solely based on concatenation, which may neglect effective interactions between them. In this paper, we propose a point-trajectory transformer with long short-term memory for efficient temporal 3D object detection. To this end, we only utilize point clouds of current-frame objects and their historical trajectories as input to minimize the memory bank storage requirement. Furthermore, we introduce modules to encode trajectory features, focusing on long short-term and future-aware perspectives, and then effectively aggregate them with point cloud features. We conduct extensive experiments on the large-scale Waymo dataset to demonstrate that our approach performs well against state-of-the-art methods. Code and models will be made publicly available at https://github.com/kuanchihhuang/PTT.
- Abstract(参考訳): 近年の時空間LiDARを用いた3Dオブジェクト検出器は,2段階提案に基づく提案手法により有望な性能を実現している。
それらは第1段階の高密度検出器から3Dボックス候補を生成し、その後に異なる時間的集約法を生成する。
しかしながら、これらのアプローチはフレーム単位のオブジェクトや全体点のクラウドを必要とし、メモリバンクの利用に関する課題を提起する。
さらに、点雲と軌道特徴は結合のみに基づいて結合され、それら間の効果的な相互作用を無視する可能性がある。
本稿では,時間的3次元物体検出を効率的に行うために,長期記憶が可能なポイントトラジェクトリトランスを提案する。
この目的のために、メモリバンクストレージの必要量を最小限に抑えるために、現在のフレームオブジェクトとその履歴トラジェクトリのポイントクラウドのみを入力として利用する。
さらに,トラジェクトリ機能をエンコードするモジュールを導入し,長期的かつ将来的な視点に着目し,ポイントクラウド機能で効果的に集約する。
我々は、大規模Waymoデータセットの広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
コードとモデルはhttps://github.com/kuanchihhuang/PTT.comで公開される。
関連論文リスト
- LEF: Late-to-Early Temporal Fusion for LiDAR 3D Object Detection [40.267769862404684]
時間的LiDAR点雲を用いた3次元物体検出のための特徴融合手法を提案する。
私たちの主な動機は、3Dオブジェクト検出器の初期段階にオブジェクト認識の潜伏埋め込みを融合させることです。
論文 参考訳(メタデータ) (2023-09-28T21:58:25Z) - TrajectoryFormer: 3D Object Tracking Transformer with Predictive
Trajectory Hypotheses [51.60422927416087]
3Dマルチオブジェクトトラッキング(MOT)は、自律走行車やサービスロボットを含む多くのアプリケーションにとって不可欠である。
本稿では,新しいポイントクラウドベースの3DMOTフレームワークであるTrjectoryFormerを紹介する。
論文 参考訳(メタデータ) (2023-06-09T13:31:50Z) - MoDAR: Using Motion Forecasting for 3D Object Detection in Point Cloud
Sequences [38.7464958249103]
我々は,動き予測出力を仮想モードのタイプとして用いて,LiDAR点雲を増大させるMoDARを提案する。
生のセンサーポイントと仮想ポイントの融合した点雲は、任意のオフザシェルフポイントクラウドベースの3Dオブジェクト検出器に供給される。
論文 参考訳(メタデータ) (2023-06-05T19:28:19Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - TransPillars: Coarse-to-Fine Aggregation for Multi-Frame 3D Object
Detection [47.941714033657675]
ポイントクラウドを用いた3Dオブジェクト検出は、自律走行とロボット工学に広く応用されているため、注目を集めている。
連続点雲フレームの時間的特徴を生かしたトランスピラース(TransPillars)を設計する。
提案するTransPillarsは,既存のマルチフレーム検出手法と比較して最先端性能を実現する。
論文 参考訳(メタデータ) (2022-08-04T15:41:43Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。