論文の概要: BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving
- arxiv url: http://arxiv.org/abs/2205.09743v1
- Date: Thu, 19 May 2022 17:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 13:56:13.963186
- Title: BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving
- Title(参考訳): beverse:視覚中心自律運転における鳥眼視の統一的知覚と予測
- Authors: Yunpeng Zhang, Zheng Zhu, Wenzhao Zheng, Junjie Huang, Guan Huang, Jie
Zhou, Jiwen Lu
- Abstract要約: マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
- 参考スコア(独自算出の注目度): 92.05963633802979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present BEVerse, a unified framework for 3D perception and
prediction based on multi-camera systems. Unlike existing studies focusing on
the improvement of single-task approaches, BEVerse features in producing
spatio-temporal Birds-Eye-View (BEV) representations from multi-camera videos
and jointly reasoning about multiple tasks for vision-centric autonomous
driving. Specifically, BEVerse first performs shared feature extraction and
lifting to generate 4D BEV representations from multi-timestamp and multi-view
images. After the ego-motion alignment, the spatio-temporal encoder is utilized
for further feature extraction in BEV. Finally, multiple task decoders are
attached for joint reasoning and prediction. Within the decoders, we propose
the grid sampler to generate BEV features with different ranges and
granularities for different tasks. Also, we design the method of iterative flow
for memory-efficient future prediction. We show that the temporal information
improves 3D object detection and semantic map construction, while the
multi-task learning can implicitly benefit motion prediction. With extensive
experiments on the nuScenes dataset, we show that the multi-task BEVerse
outperforms existing single-task methods on 3D object detection, semantic map
construction, and motion prediction. Compared with the sequential paradigm,
BEVerse also favors in significantly improved efficiency. The code and trained
models will be released at https://github.com/zhangyp15/BEVerse.
- Abstract(参考訳): 本稿では,マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
シングルタスクアプローチの改善に焦点を当てた既存の研究とは異なり、BEVerseは、マルチカメラビデオから時空間バードスアイビュー(BEV)表現を生成し、視覚中心の自律運転のための複数のタスクを共同で推論する。
具体的には、BEVerseはまず共有特徴抽出とリフトを行い、マルチタイムスタンプとマルチビュー画像から4次元のBEV表現を生成する。
エゴモーションアライメント後、時空間エンコーダを用いてBEVのさらなる特徴抽出を行う。
最後に、共同推論と予測のために複数のタスクデコーダを取り付ける。
デコーダ内では、異なる範囲とタスクの粒度を持つBEV機能を生成するためのグリッドサンプリング器を提案する。
また,メモリ効率の高い将来予測のための反復フローの手法を設計する。
時間情報は3次元物体検出と意味マップ構築を改善し,マルチタスク学習は暗黙的に動き予測に有用であることを示す。
nuscenesデータセットに関する広範な実験により、マルチタスクは3dオブジェクト検出、セマンティックマップ構築、モーション予測において、既存のシングルタスクメソッドよりも優れています。
シーケンシャルパラダイムと比較すると、BEVerseは効率を大幅に改善することを好む。
コードとトレーニングされたモデルはhttps://github.com/zhangyp15/beverseでリリースされる。
関連論文リスト
- HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras [45.739224968302565]
本稿では,マルチタスク3次元知覚のためのHENetというエンドツーエンドフレームワークを提案する。
具体的には,短期フレーム用大画像エンコーダと長期フレーム用小画像エンコーダを用いたハイブリッド画像エンコーダを提案する。
各認識タスクの特徴により、異なるグリッドサイズのBEV機能、独立したBEVエンコーダ、タスクデコーダを異なるタスクに活用する。
論文 参考訳(メタデータ) (2024-04-03T07:10:18Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。