論文の概要: Semantic-Supervised Spatial-Temporal Fusion for LiDAR-based 3D Object Detection
- arxiv url: http://arxiv.org/abs/2503.10579v2
- Date: Sat, 15 Mar 2025 06:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:28.336133
- Title: Semantic-Supervised Spatial-Temporal Fusion for LiDAR-based 3D Object Detection
- Title(参考訳): LiDARを用いた3次元物体検出のための意味監督型空間時間融合
- Authors: Chaoqun Wang, Xiaobin Hong, Wenzhong Li, Ruimao Zhang,
- Abstract要約: LiDARをベースとした3Dオブジェクト検出は,LiDAR点の特異性に起因する重要な課題を呈している。
本研究では,物体の動きによる空間的不整合を緩和する新たな融合モジュールを提案する。
また,ポイントワイドなセマンティックラベルを注入することで,疎LiDARデータを充実させるセマンティックインジェクション法を提案する。
- 参考スコア(独自算出の注目度): 22.890432295751086
- License:
- Abstract: LiDAR-based 3D object detection presents significant challenges due to the inherent sparsity of LiDAR points. A common solution involves long-term temporal LiDAR data to densify the inputs. However, efficiently leveraging spatial-temporal information remains an open problem. In this paper, we propose a novel Semantic-Supervised Spatial-Temporal Fusion (ST-Fusion) method, which introduces a novel fusion module to relieve the spatial misalignment caused by the object motion over time and a feature-level semantic supervision to sufficiently unlock the capacity of the proposed fusion module. Specifically, the ST-Fusion consists of a Spatial Aggregation (SA) module and a Temporal Merging (TM) module. The SA module employs a convolutional layer with progressively expanding receptive fields to aggregate the object features from the local regions to alleviate the spatial misalignment, the TM module dynamically extracts object features from the preceding frames based on the attention mechanism for a comprehensive sequential presentation. Besides, in the semantic supervision, we propose a Semantic Injection method to enrich the sparse LiDAR data via injecting the point-wise semantic labels, using it for training a teacher model and providing a reconstruction target at the feature level supervised by the proposed object-aware loss. Extensive experiments on various LiDAR-based detectors demonstrate the effectiveness and universality of our proposal, yielding an improvement of approximately +2.8% in NDS based on the nuScenes benchmark.
- Abstract(参考訳): LiDARをベースとした3Dオブジェクト検出は,LiDAR点の特異性に起因する重要な課題を呈している。
一般的な解決策は、入力を密度化するための長期的LiDARデータである。
しかし、時空間情報を効率的に活用することは未解決の問題である。
本稿では、時間とともに物体の動きによる空間的不整合を緩和する新しい融合モジュールと、提案した融合モジュールのキャパシティを十分にアンロックするための機能レベルのセマンティック・セマンティック・スーパービジョン・スペース・テンポラル・フュージョン(ST-Fusion)法を提案する。
具体的には、ST-Fusionは空間集合(SA)モジュールとテンポラルマージング(TM)モジュールで構成される。
SAモジュールは、局所領域から対象特徴を集約して空間的不整合を軽減するために、徐々に拡大する受容野を有する畳み込み層を用いており、TMモジュールは、総合的なシーケンシャルなプレゼンテーションのための注意機構に基づいて、先行フレームから対象特徴を動的に抽出する。
また,セマンティック・インジェクション(セマンティック・インジェクション,セマンティック・インジェクション,セマンティック・インジェクション,セマンティック・インジェクション)を提案する。
様々なLiDARベースの検出器に関する大規模な実験は、提案の有効性と普遍性を示し、nuScenesベンチマークに基づくNDSの約2.8%の改善をもたらす。
関連論文リスト
- Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences [25.74000325019015]
クロスフレーム動作予測情報を用いた時空間特徴学習を容易にするために,新しいLiDAR 3Dオブジェクト検出フレームワークLiSTMを導入する。
我々は,本フレームワークが優れた3次元検出性能を実現することを示すため,アグリゲーションとnuScenesデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-09-06T16:29:04Z) - DSLO: Deep Sequence LiDAR Odometry Based on Inconsistent Spatio-temporal Propagation [66.8732965660931]
本稿では,LiDAR odometry DSLO の非一貫性時間伝搬に基づく3次元点列学習モデルを提案する。
ピラミッド構造で、シーケンシャルなポーズモジュール、階層的なポーズリファインメントモジュール、時間的特徴伝搬モジュールで構成されている。
論文 参考訳(メタデータ) (2024-09-01T15:12:48Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Large receptive field strategy and important feature extraction strategy
in 3D object detection [6.3948571459793975]
本研究は,3次元目標検出における鍵となる課題に焦点を当てた。
3次元畳み込みカーネルの受容領域を拡大する課題に対処するために,動的特徴融合モジュールを導入する。
このモジュールは、3D畳み込みカーネルの受容場を適応的に拡張し、拡張と許容される計算負荷のバランスをとる。
論文 参考訳(メタデータ) (2024-01-22T13:01:28Z) - Sparse Dense Fusion for 3D Object Detection [24.288662560178334]
カメラ-LiDAR融合は3Dオブジェクト検出で人気を博している。
我々は,1)3次元の幾何学的先行情報を保持するが,カメラからリッチな意味情報を失うこと,2)密度のみの代替手段が意味的連続性を保持すること,そして,LiDARの正確な幾何学的情報を見逃すこと,の2つの課題を分析する。
本稿では,Sparse Dense Fusion(SDF)を提案する。Sparse Dense Fusion(SDF)は,Transformerアーキテクチャを通じて,スパースフュージョンと高密度フュージョンモジュールの両方を組み込んだ補完的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-09T07:10:34Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - SIENet: Spatial Information Enhancement Network for 3D Object Detection
from Point Cloud [20.84329063509459]
LiDARベースの3Dオブジェクト検出は、自動運転車に大きな影響を与える。
LiDARの固有特性の制限により、センサーから遠く離れた物体において、より少ない点が収集される。
そこで本研究では,SIENetという2段階の3次元物体検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-29T07:45:09Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。