論文の概要: Exploring Recurrent Long-term Temporal Fusion for Multi-view 3D
Perception
- arxiv url: http://arxiv.org/abs/2303.05970v2
- Date: Mon, 13 Mar 2023 04:41:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 11:10:19.205169
- Title: Exploring Recurrent Long-term Temporal Fusion for Multi-view 3D
Perception
- Title(参考訳): 多視点3次元知覚のための長期長期核融合の探索
- Authors: Chunrui Han, Jianjian Sun, Zheng Ge, Jinrong Yang, Runpei Dong, Hongyu
Zhou, Weixin Mao, Yuang Peng, Xiangyu Zhang
- Abstract要約: 長期的な時間融合は、カメラベースのBird-Eye-View 3D知覚において不可欠であるが、しばしば見落とされがちなテクニックである。
既存の方法はほとんどが並列である。
私たちはこのシンプルだが効果的に融合するパイプラインを VideoBEV と名付けます。
- 参考スコア(独自算出の注目度): 17.59602765779985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term temporal fusion is a crucial but often overlooked technique in
camera-based Bird's-Eye-View (BEV) 3D perception. Existing methods are mostly
in a parallel manner. While parallel fusion can benefit from long-term
information, it suffers from increasing computational and memory overheads as
the fusion window size grows. Alternatively, BEVFormer adopts a recurrent
fusion pipeline so that history information can be efficiently integrated, yet
it fails to benefit from longer temporal frames. In this paper, we explore an
embarrassingly simple long-term recurrent fusion strategy built upon the
LSS-based methods and find it already able to enjoy the merits from both sides,
i.e., rich long-term information and efficient fusion pipeline. A temporal
embedding module is further proposed to improve the model's robustness against
occasionally missed frames in practical scenarios. We name this simple but
effective fusing pipeline VideoBEV. Experimental results on the nuScenes
benchmark show that VideoBEV obtains leading performance on various
camera-based 3D perception tasks, including object detection (55.4% mAP and
62.9% NDS), segmentation (48.6% vehicle mIoU), tracking (54.8% AMOTA), and
motion prediction (0.80m minADE and 0.463 EPA). Code will be available.
- Abstract(参考訳): 長期間の時間的融合は、カメラベースのバードズ・ズ・アイ・ビュー(bev)3d知覚において重要な技術であるがしばしば見過ごされている。
既存の方法はほとんどが並列である。
並列融合は長期的な情報から恩恵を受けるが、融合ウィンドウのサイズが大きくなるにつれて計算とメモリのオーバーヘッドが増大する。
あるいは、BEVFormerはリカレントフュージョンパイプラインを採用して、履歴情報を効率的に統合できるが、より長い時間枠の恩恵を受けられないようにする。
本稿では,LSS法に基づいて構築された,恥ずかしいほど単純な長期再帰型核融合戦略について検討し,両者のメリット,すなわち豊かな長期情報と効率的な核融合パイプラインを享受できることを見出した。
実用的なシナリオにおいて、時々欠落するフレームに対するモデルの堅牢性を改善するために、時間的埋め込みモジュールがさらに提案されている。
このシンプルだが効果的に融合するパイプラインを VideoBEV と呼ぶ。
nuScenesベンチマークの実験結果によると、VideoBEVは、オブジェクト検出(55.4% mAPと62.9% NDS)、セグメンテーション(48.6%の車両mIoU)、トラッキング(54.8% AMOTA)、モーション予測(0.80m minADEと0.463 EPA)など、様々なカメラベースの3D知覚タスクにおいて、主要なパフォーマンスを得る。
コードは利用可能だ。
関連論文リスト
- STAF: 3D Human Mesh Recovery from Video with Spatio-Temporal Alignment
Fusion [35.42718669331158]
既存のモデルは、通常、空間的・時間的情報を無視し、メッシュや画像の不一致や時間的不連続につながる可能性がある。
ビデオベースのモデルとして、注意に基づくテンポラルコヒーレンス融合モジュールによる人間の動きからのコヒーレンスヒントを利用する。
さらに,モデルが対象のフレームだけでなく,入力シーケンス全体に集中できるように,平均プールモジュール(APM)を提案する。
論文 参考訳(メタデータ) (2024-01-03T13:07:14Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object
Detection [73.13609886390928]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal
Consistent Transformer for 3D Object Detection [14.457844173630667]
本稿では,FusionFormerと呼ばれる,エンドツーエンドのマルチモーダル・フュージョン・トランスフォーマーベースのフレームワークを提案する。
均一なサンプリング戦略を開発することにより,2次元画像と3次元ボクセルの特徴を自発的に抽出することができる。
テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAP と 75.1% NDS の最先端シングルモデル性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T06:27:25Z) - Fully Sparse Fusion for 3D Object Detection [91.28571584038467]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D
Object Detection [20.161887223481994]
マルチビュー3Dオブジェクト検出のための長周期モデリングフレームワークStreamPETRを提案する。
StreamPETRは、単一フレームのベースラインと比較して、無視可能なコストでのみ、大幅なパフォーマンス向上を実現している。
軽量版は45.0%のmAPと31.7のFPSを実現し、2.3%のmAPと1.8倍の高速FPSを達成している。
論文 参考訳(メタデータ) (2023-03-21T15:19:20Z) - Time Will Tell: New Outlooks and A Baseline for Temporal Multi-View 3D
Object Detection [63.809086864530784]
現在の3D検出法は、限られた歴史を使って物体の知覚を改善する。
我々のフレームワークは、nuScenesで新しい最先端をセットし、テストセットで1位を獲得し、検証セットで5.2%のmAPと3.7%のNDSで過去の最高のアートを上回ります。
論文 参考訳(メタデータ) (2022-10-05T17:59:51Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View
Representation [116.6111047218081]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - ViPNAS: Efficient Video Pose Estimation via Neural Architecture Search [94.90294600817215]
高速なオンラインビデオポーズ推定のための空間的・時間的ネットワークに対する新しいニューラルネットワーク探索(NAS)手法(ViPNAS)を提案する。
空間レベルでは,ネットワーク深さ,幅,カーネルサイズ,グループ数,注目度などの5つの異なる次元の探索空間を慎重に設計する。
時間レベルでは、一連の時間的特徴融合から検索し、複数のビデオフレームの合計精度と速度を最適化する。
論文 参考訳(メタデータ) (2021-05-21T06:36:40Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。