論文の概要: Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences
- arxiv url: http://arxiv.org/abs/2409.04390v1
- Date: Fri, 6 Sep 2024 16:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 15:14:50.312613
- Title: Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences
- Title(参考訳): 今後の課題:点雲列における時間的動き推定による3次元物体検出の強化
- Authors: Rui Yu, Runkai Zhao, Cong Nie, Heng Wang, HuaiCheng Yan, Meng Wang,
- Abstract要約: クロスフレーム動作予測情報を用いた時空間特徴学習を容易にするために,新しいLiDAR 3Dオブジェクト検出フレームワークLiSTMを導入する。
我々は,本フレームワークが優れた3次元検出性能を実現することを示すため,アグリゲーションとnuScenesデータセットの実験を行った。
- 参考スコア(独自算出の注目度): 25.74000325019015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and robust LiDAR 3D object detection is essential for comprehensive scene understanding in autonomous driving. Despite its importance, LiDAR detection performance is limited by inherent constraints of point cloud data, particularly under conditions of extended distances and occlusions. Recently, temporal aggregation has been proven to significantly enhance detection accuracy by fusing multi-frame viewpoint information and enriching the spatial representation of objects. In this work, we introduce a novel LiDAR 3D object detection framework, namely LiSTM, to facilitate spatial-temporal feature learning with cross-frame motion forecasting information. We aim to improve the spatial-temporal interpretation capabilities of the LiDAR detector by incorporating a dynamic prior, generated from a non-learnable motion estimation model. Specifically, Motion-Guided Feature Aggregation (MGFA) is proposed to utilize the object trajectory from previous and future motion states to model spatial-temporal correlations into gaussian heatmap over a driving sequence. This motion-based heatmap then guides the temporal feature fusion, enriching the proposed object features. Moreover, we design a Dual Correlation Weighting Module (DCWM) that effectively facilitates the interaction between past and prospective frames through scene- and channel-wise feature abstraction. In the end, a cascade cross-attention-based decoder is employed to refine the 3D prediction. We have conducted experiments on the Waymo and nuScenes datasets to demonstrate that the proposed framework achieves superior 3D detection performance with effective spatial-temporal feature learning.
- Abstract(参考訳): 高精度で堅牢なLiDAR 3Dオブジェクト検出は、自動運転における総合的なシーン理解に不可欠である。
その重要性にもかかわらず、LiDAR検出性能は点雲データ固有の制約によって制限されている。
近年,多フレーム視点情報を融合し,物体の空間的表現を充実させることにより,時間的アグリゲーションが検出精度を大幅に向上することが証明されている。
本研究では,フレーム間移動予測情報を用いた空間時空間特徴学習を容易にするために,新しいLiDAR 3Dオブジェクト検出フレームワークLiSTMを提案する。
学習不可能な動き推定モデルから生成された動的先行処理を組み込むことにより,LiDAR検出器の時空間解釈能力の向上を目指す。
具体的には,運動誘導型特徴集合(MGFA)を用いて,前と将来の運動状態からの物体軌道を利用して空間時間相関を駆動列上のガウス熱マップにモデル化する。
この動きに基づく熱マップは、時間的特徴融合を誘導し、提案された対象特徴を豊かにする。
さらに,過去フレームと将来フレームの相互作用を効果的に促進する2次元相関重み付けモジュール (DCWM) を設計する。
最終的に、カスケードのクロスアテンションに基づくデコーダを用いて、3D予測を洗練させる。
Waymo と nuScenes のデータセットを用いて実験を行い,提案手法が空間時間的特徴学習を効果的に行うことにより,優れた3次元検出性能を実現することを示す。
関連論文リスト
- MambaDETR: Query-based Temporal Modeling using State Space Model for Multi-View 3D Object Detection [18.13821223763173]
本稿では,効率的な状態空間に時間融合を実装することを目的として,MambaDETRという新しい手法を提案する。
標準のnuScenesベンチマークでは,提案したMambaDETRは3Dオブジェクト検出タスクにおいて顕著な結果が得られる。
論文 参考訳(メタデータ) (2024-11-20T14:47:18Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - 3D-FCT: Simultaneous 3D Object Detection and Tracking Using Feature
Correlation [0.0]
3D-FCTは、時間情報を利用して3Dオブジェクトの検出と追跡の関連タスクを同時に実行するシームズネットワークアーキテクチャである。
提案手法は,最先端手法よりも5.57%mAPの改善が期待できるKITTI追跡データセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-06T06:36:29Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。