論文の概要: Temporal Enhanced Training of Multi-view 3D Object Detector via
Historical Object Prediction
- arxiv url: http://arxiv.org/abs/2304.00967v1
- Date: Mon, 3 Apr 2023 13:35:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 15:21:59.271001
- Title: Temporal Enhanced Training of Multi-view 3D Object Detector via
Historical Object Prediction
- Title(参考訳): 歴史的物体予測による多視点3次元物体検出器の時間的訓練
- Authors: Zhuofan Zong, Dongzhi Jiang, Guanglu Song, Zeyue Xue, Jingyong Su,
Hongsheng Li, Yu Liu
- Abstract要約: マルチビュー3次元検出のための新しいパラダイムである履歴オブジェクト予測(HoP)を提案する。
我々は隣接するフレームからタイムスタンプt-kの擬似Bird's-Eye View(BEV)機能を生成し、この特徴を利用してタイムスタンプt-kに設定されたオブジェクトを予測する。
プラグアンドプレイのアプローチとして、HoPは最先端のBEV検出フレームワークに簡単に組み込むことができる。
- 参考スコア(独自算出の注目度): 28.800204844558518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new paradigm, named Historical Object Prediction
(HoP) for multi-view 3D detection to leverage temporal information more
effectively. The HoP approach is straightforward: given the current timestamp
t, we generate a pseudo Bird's-Eye View (BEV) feature of timestamp t-k from its
adjacent frames and utilize this feature to predict the object set at timestamp
t-k. Our approach is motivated by the observation that enforcing the detector
to capture both the spatial location and temporal motion of objects occurring
at historical timestamps can lead to more accurate BEV feature learning. First,
we elaborately design short-term and long-term temporal decoders, which can
generate the pseudo BEV feature for timestamp t-k without the involvement of
its corresponding camera images. Second, an additional object decoder is
flexibly attached to predict the object targets using the generated pseudo BEV
feature. Note that we only perform HoP during training, thus the proposed
method does not introduce extra overheads during inference. As a plug-and-play
approach, HoP can be easily incorporated into state-of-the-art BEV detection
frameworks, including BEVFormer and BEVDet series. Furthermore, the auxiliary
HoP approach is complementary to prevalent temporal modeling methods, leading
to significant performance gains. Extensive experiments are conducted to
evaluate the effectiveness of the proposed HoP on the nuScenes dataset. We
choose the representative methods, including BEVFormer and BEVDet4D-Depth to
evaluate our method. Surprisingly, HoP achieves 68.5% NDS and 62.4% mAP with
ViT-L on nuScenes test, outperforming all the 3D object detectors on the
leaderboard. Codes will be available at https://github.com/Sense-X/HoP.
- Abstract(参考訳): 本稿では,時間的情報をより効果的に活用するための,多視点3D検出のための新しいパラダイムである履歴オブジェクト予測(HoP)を提案する。
現在のタイムスタンプtを考えると、隣接するフレームからタイムスタンプt-kの擬似Bird's-Eye View(BEV)機能を生成し、この機能を使用してタイムスタンプt-kに設定されたオブジェクトを予測する。
我々のアプローチは、歴史的タイムスタンプで発生する物体の空間的位置と時間的動きを検知するために検出器を強制することが、より正確なBEV特徴学習につながるという観察によって動機づけられている。
まず,短期および長期の時間デコーダを精巧に設計し,対応するカメラ画像の関与なしにタイムスタンプt-kの擬似bev機能を生成する。
第二に、生成された擬似BEV機能を用いて対象目標を予測するために、追加のオブジェクトデコーダを柔軟に取り付ける。
トレーニング中にのみHoPを実行するので、提案手法は推論時に余分なオーバーヘッドを導入しない。
プラグアンドプレイのアプローチとして、HoPはBEVFormerやBEVDetシリーズを含む最先端のBEV検出フレームワークに簡単に組み込める。
さらに、補助的なHoPアプローチは、一般的な時間的モデリング手法と相補的であり、大幅な性能向上をもたらす。
提案したHoPがnuScenesデータセットに与える影響を評価するために,大規模な実験を行った。
BEVFormerやBEVDet4D-Depthなど代表的手法を選択して評価する。
驚いたことに、HoP は nuScenes テストで 68.5% の NDS と 62.4% の mAP を達成し、リーダーボード上の全ての3Dオブジェクト検出器を上回っている。
コードはhttps://github.com/Sense-X/HoP.comから入手できる。
関連論文リスト
- Learning Temporal Cues by Predicting Objects Move for Multi-camera 3D Object Detection [9.053936905556204]
本稿では,2分岐ネットワークからなるDAP (Detection After Prediction) モデルを提案する。
分岐(i)から現在のオブジェクトを予測する特徴は、予測知識を伝達するために分岐(ii)に融合される。
私たちのモデルはプラグイン・アンド・プレイで使用することができ、一貫したパフォーマンス向上を示します。
論文 参考訳(メタデータ) (2024-04-02T02:20:47Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - 3D Video Object Detection with Learnable Object-Centric Global
Optimization [65.68977894460222]
対応性に基づく最適化は3次元シーン再構成の基盤となるが、3次元ビデオオブジェクト検出では研究されていない。
オブジェクト中心の時間対応学習と特徴量付きオブジェクトバンドル調整を備えた、エンドツーエンドで最適化可能なオブジェクト検出器であるBA-Detを提案する。
論文 参考訳(メタデータ) (2023-03-27T17:39:39Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - MGTANet: Encoding Sequential LiDAR Points Using Long Short-Term
Motion-Guided Temporal Attention for 3D Object Detection [8.305942415868042]
ほとんどのLiDARセンサーは、リアルタイムで一連の点雲を生成する。
近年の研究では、一連の点集合に存在するコンテキストを活用することで、大幅な性能向上が達成されている。
複数の連続走査によって取得された点雲列を符号化する新しい3Dオブジェクト検出アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-01T11:24:47Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。