論文の概要: Exploring Recurrent Long-term Temporal Fusion for Multi-view 3D
Perception
- arxiv url: http://arxiv.org/abs/2303.05970v1
- Date: Fri, 10 Mar 2023 15:01:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 14:44:51.627371
- Title: Exploring Recurrent Long-term Temporal Fusion for Multi-view 3D
Perception
- Title(参考訳): 多視点3次元知覚のための長期長期核融合の探索
- Authors: Chunrui Han, Jianjian Sun, Zheng Ge, Jinrong Yang, Runpei Dong, Hongyu
Zhou, Weixin Mao, Yuang Peng, Xiangyu Zhang
- Abstract要約: 長期的な時間融合は、カメラベースのBird-Eye-View 3D知覚において不可欠であるが、しばしば見落とされがちなテクニックである。
既存の方法はほとんどが並列である。
私たちはこのシンプルだが効果的に融合するパイプラインを VideoBEV と名付けます。
- 参考スコア(独自算出の注目度): 17.59602765779985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term temporal fusion is a crucial but often overlooked technique in
camera-based Bird's-Eye-View (BEV) 3D perception. Existing methods are mostly
in a parallel manner. While parallel fusion can benefit from long-term
information, it suffers from increasing computational and memory overheads as
the fusion window size grows. Alternatively, BEVFormer adopts a recurrent
fusion pipeline so that history information can be efficiently integrated, yet
it fails to benefit from longer temporal frames. In this paper, we explore an
embarrassingly simple long-term recurrent fusion strategy built upon the
LSS-based methods and find it already able to enjoy the merits from both sides,
i.e., rich long-term information and efficient fusion pipeline. A temporal
embedding module is further proposed to improve the model's robustness against
occasionally missed frames in practical scenarios. We name this simple but
effective fusing pipeline VideoBEV. Experimental results on the nuScenes
benchmark show that VideoBEV obtains leading performance on various
camera-based 3D perception tasks, including object detection (55.4% mAP and
62.9% NDS), segmentation (48.6% vehicle mIoU), tracking (54.8% AMOTA), and
motion prediction (0.80m minADE and 0.463 EPA). Code will be available.
- Abstract(参考訳): 長期間の時間的融合は、カメラベースのバードズ・ズ・アイ・ビュー(bev)3d知覚において重要な技術であるがしばしば見過ごされている。
既存の方法はほとんどが並列である。
並列融合は長期的な情報から恩恵を受けるが、融合ウィンドウのサイズが大きくなるにつれて計算とメモリのオーバーヘッドが増大する。
あるいは、BEVFormerはリカレントフュージョンパイプラインを採用して、履歴情報を効率的に統合できるが、より長い時間枠の恩恵を受けられないようにする。
本稿では,LSS法に基づいて構築された,恥ずかしいほど単純な長期再帰型核融合戦略について検討し,両者のメリット,すなわち豊かな長期情報と効率的な核融合パイプラインを享受できることを見出した。
実用的なシナリオにおいて、時々欠落するフレームに対するモデルの堅牢性を改善するために、時間的埋め込みモジュールがさらに提案されている。
このシンプルだが効果的に融合するパイプラインを VideoBEV と呼ぶ。
nuScenesベンチマークの実験結果によると、VideoBEVは、オブジェクト検出(55.4% mAPと62.9% NDS)、セグメンテーション(48.6%の車両mIoU)、トラッキング(54.8% AMOTA)、モーション予測(0.80m minADEと0.463 EPA)など、様々なカメラベースの3D知覚タスクにおいて、主要なパフォーマンスを得る。
コードは利用可能だ。
関連論文リスト
- CRT-Fusion: Camera, Radar, Temporal Fusion Using Motion Information for 3D Object Detection [9.509625131289429]
本稿では,レーダカメラ融合に時間情報を統合する新しいフレームワークであるCRT-Fusionを紹介する。
CRT-Fusionはレーダーカメラによる3Dオブジェクト検出のための最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-05T11:25:19Z) - Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - SparseFusion: Efficient Sparse Multi-Modal Fusion Framework for Long-Range 3D Perception [47.000734648271006]
SparseFusionは,スパース3次元特徴を基盤として構築され,より効率的な長距離知覚を実現する新しい多モード融合フレームワークである。
提案したモジュールは,前景オブジェクトが存在可能なグリッドのみを埋める意味的側面と幾何学的側面の両方から疎結合を導入する。
長距離Argoverse2データセットでは、SparseFusionはメモリフットプリントを減らし、密度の高い検出器に比べて約2倍の速度で推論を高速化する。
論文 参考訳(メタデータ) (2024-03-15T05:59:10Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal
Consistent Transformer for 3D Object Detection [14.457844173630667]
本稿では,FusionFormerと呼ばれる,エンドツーエンドのマルチモーダル・フュージョン・トランスフォーマーベースのフレームワークを提案する。
均一なサンプリング戦略を開発することにより,2次元画像と3次元ボクセルの特徴を自発的に抽出することができる。
テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAP と 75.1% NDS の最先端シングルモデル性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T06:27:25Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Time Will Tell: New Outlooks and A Baseline for Temporal Multi-View 3D
Object Detection [63.809086864530784]
現在の3D検出法は、限られた歴史を使って物体の知覚を改善する。
我々のフレームワークは、nuScenesで新しい最先端をセットし、テストセットで1位を獲得し、検証セットで5.2%のmAPと3.7%のNDSで過去の最高のアートを上回ります。
論文 参考訳(メタデータ) (2022-10-05T17:59:51Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。