論文の概要: BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection
- arxiv url: http://arxiv.org/abs/2203.17054v1
- Date: Thu, 31 Mar 2022 14:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:48:25.536495
- Title: BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection
- Title(参考訳): BEVDet4D:マルチカメラ3Dオブジェクト検出における爆発的一時キュー
- Authors: Junjie Huang, Guan Huang
- Abstract要約: BEVDet4Dは空間のみの3次元空間から時空間の4次元空間へ拡張性のあるBEVDetパラダイムを持ち上げるために提案されている。
我々は,BEVDet4Dに頑健な一般化性能を持たせるエゴモーションと時間の要因を除去し,速度学習タスクを簡素化する。
課題ベンチマークnuScenesでは,BEVDet4D-Baseと呼ばれる高性能な構成で51.5% NDSを記録した。
- 参考スコア(独自算出の注目度): 14.11339105810819
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Single frame data contains finite information which limits the performance of
the existing vision-based multi-camera 3D object detection paradigms. For
fundamentally pushing the performance boundary in this area, BEVDet4D is
proposed to lift the scalable BEVDet paradigm from the spatial-only 3D space to
the spatial-temporal 4D space. We upgrade the framework with a few
modifications just for fusing the feature from the previous frame with the
corresponding one in the current frame. In this way, with negligible extra
computing budget, we enable the algorithm to access the temporal cues by
querying and comparing the two candidate features. Beyond this, we also
simplify the velocity learning task by removing the factors of ego-motion and
time, which equips BEVDet4D with robust generalization performance and reduces
the velocity error by 52.8%. This makes vision-based methods, for the first
time, become comparable with those relied on LiDAR or radar in this aspect. On
challenge benchmark nuScenes, we report a new record of 51.5% NDS with the
high-performance configuration dubbed BEVDet4D-Base, which surpasses the
previous leading method BEVDet by +4.3% NDS.
- Abstract(参考訳): 単一フレームデータには、既存のビジョンベースのマルチカメラ3Dオブジェクト検出パラダイムの性能を制限する有限情報が含まれている。
BEVDet4Dは空間のみの3次元空間から時空間の4次元空間へ拡張性のあるBEVDetパラダイムを持ち上げるために提案されている。
我々は、前のフレームと対応するフレームを現在のフレームに融合させるためだけに、いくつかの修正を加えてフレームワークをアップグレードする。
このようにして,計算予算を不要にすることで,2つの候補特徴をクエリし比較することにより,アルゴリズムが時間的手がかりにアクセスできるようにする。
さらに,BEVDet4Dに頑健な一般化性能を持たせるとともに,速度誤差を52.8%削減するエゴモーションと時間の要因を除去することで,速度学習タスクを簡素化する。
これにより、視覚ベースの手法が、この面でLiDARやレーダーに依存している手法に初めて匹敵するものになる。
チャレンジベンチマーク nuScenes では、BEVDet4D-Base と呼ばれる高性能な構成で51.5% NDS の新たな記録を報告し、これは以前のリードメソッドである BEVDet を +4.3% NDS で上回っている。
関連論文リスト
- Doracamom: Joint 3D Detection and Occupancy Prediction with Multi-view 4D Radars and Cameras for Omnidirectional Perception [9.76463525667238]
マルチビューカメラと4Dレーダを融合した最初のフレームワークであるDoracamomを提案する。
コードとモデルは公開されます。
論文 参考訳(メタデータ) (2025-01-26T04:24:07Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - 4DRVO-Net: Deep 4D Radar-Visual Odometry Using Multi-Modal and
Multi-Scale Adaptive Fusion [2.911052912709637]
4次元(4D)レーダー-視覚計測(4DRVO)は4次元レーダーとカメラの補完情報を統合している。
4DRVOは4Dレーダーポイント雲の空隙による追跡誤差が顕著である可能性がある。
本稿では,4次元レーダ・ビジュアル・オドメトリーの手法である4DRVO-Netを提案する。
論文 参考訳(メタデータ) (2023-08-12T14:00:09Z) - SMURF: Spatial Multi-Representation Fusion for 3D Object Detection with
4D Imaging Radar [12.842457981088378]
本稿では,単一4次元イメージングレーダを用いた新しい3次元物体検出手法である空間多重表現融合(SMURF)を提案する。
SMURFは、狭角分解能とレーダ信号のマルチパス伝搬による測定精度の低下を緩和する。
The experimental evaluations on View-of-Delft (VoD) and TJ4DRadSet datasets showed the effective and generalization ability of SMURF。
論文 参考訳(メタデータ) (2023-07-20T11:33:46Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z) - Learning Spatial and Temporal Variations for 4D Point Cloud Segmentation [0.39373541926236766]
フレーム間の時間的情報は3次元シーンの知覚に重要な知識をもたらすと我々は主張する。
本研究では,4次元点雲の時間変動を捉えるために,時間変動対応モジュールと時間変化対応のボクセル点精製器を設計する。
論文 参考訳(メタデータ) (2022-07-11T07:36:26Z) - LiDAR-based 4D Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,両タスクの現在の最先端手法よりも優れた精度を実現する。
DS-Netを4次元パノプティカルLiDARセグメンテーションに拡張し、一列のLiDARフレーム上で時間的に統一されたインスタンスクラスタリングを行う。
論文 参考訳(メタデータ) (2022-03-14T15:25:42Z) - Multi-modal 3D Human Pose Estimation with 2D Weak Supervision in
Autonomous Driving [74.74519047735916]
自動運転車(AV)における3次元ポーズ推定(HPE)は,多くの要因において他のユースケースと異なる。
他のユースケース(仮想現実、ゲーム、アニメーションなど)のために収集されたデータは、AVアプリケーションには使用できない可能性がある。
本稿では,この問題をAV設定で緩和するための最初のアプローチの1つを提案する。
論文 参考訳(メタデータ) (2021-12-22T18:57:16Z) - BEVDet: High-performance Multi-camera 3D Object Detection in
Bird-Eye-View [15.560366079077449]
我々は,2次元オブジェクト検出タスクにおける性能境界を押し上げるために,BEVDetパラダイムを貢献する。
BeVDetは,Bird-Eye-View (BEV) における3次元物体検出の原則に従って開発され,経路計画を手作業で行うことができる。
提案手法は,マルチカメラ3Dオブジェクト検出において有効であり,計算予算と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2021-12-22T10:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。