論文の概要: M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation
- arxiv url: http://arxiv.org/abs/2204.05088v1
- Date: Mon, 11 Apr 2022 13:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 16:50:28.663003
- Title: M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation
- Title(参考訳): M^2BEV:Unified Birds-Eye View Representationによるマルチカメラ関節3次元検出とセグメンテーション
- Authors: Enze Xie, Zhiding Yu, Daquan Zhou, Jonah Philion, Anima Anandkumar,
Sanja Fidler, Ping Luo, Jose M. Alvarez
- Abstract要約: M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
- 参考スコア(独自算出の注目度): 145.6041893646006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose M$^2$BEV, a unified framework that jointly performs
3D object detection and map segmentation in the Birds Eye View~(BEV) space with
multi-camera image inputs. Unlike the majority of previous works which
separately process detection and segmentation, M$^2$BEV infers both tasks with
a unified model and improves efficiency. M$^2$BEV efficiently transforms
multi-view 2D image features into the 3D BEV feature in ego-car coordinates.
Such BEV representation is important as it enables different tasks to share a
single encoder. Our framework further contains four important designs that
benefit both accuracy and efficiency: (1) An efficient BEV encoder design that
reduces the spatial dimension of a voxel feature map. (2) A dynamic box
assignment strategy that uses learning-to-match to assign ground-truth 3D boxes
with anchors. (3) A BEV centerness re-weighting that reinforces with larger
weights for more distant predictions, and (4) Large-scale 2D detection
pre-training and auxiliary supervision. We show that these designs
significantly benefit the ill-posed camera-based 3D perception tasks where
depth information is missing. M$^2$BEV is memory efficient, allowing
significantly higher resolution images as input, with faster inference speed.
Experiments on nuScenes show that M$^2$BEV achieves state-of-the-art results in
both 3D object detection and BEV segmentation, with the best single model
achieving 42.5 mAP and 57.0 mIoU in these two tasks, respectively.
- Abstract(参考訳): 本稿では,複数カメラ画像入力による鳥眼視〜(bev)空間における3次元物体検出と地図分割を共同で行う統一フレームワークであるm$^2$bevを提案する。
プロセスの検出とセグメンテーションを別々に行う以前のほとんどの作業とは異なり、M$^2$BEVは両方のタスクを統一されたモデルで推論し、効率を向上させる。
M$^2$BEVは、マルチビュー2D画像をエゴカー座標の3次元BEV特徴に効率的に変換する。
このようなBEV表現は、異なるタスクが1つのエンコーダを共有することができるため重要である。
1)voxel特徴写像の空間次元を減少させる効率的なbevエンコーダ設計である。
2) グラウンドトルース3Dボックスをアンカーに割り当てるためにラーニング・トゥ・マッチを利用する動的ボックス割り当て戦略。
(3)より遠方の予測のためにより大きな重量で補強するBEV中心性再重み付け、(4)大規模2D検出事前訓練及び補助監督。
これらの設計は、奥行き情報が欠落しているカメラベースの3d知覚タスクに有益であることを示す。
m$^2$bevはメモリ効率が良く、入力として相当高い解像度の画像が得られる。
nuScenesの実験では、M$^2$BEVは3Dオブジェクト検出とBEVセグメンテーションの両方で最先端の結果が得られ、これら2つのタスクで最高の1つのモデルはそれぞれ42.5mAPと57.0mIoUを達成した。
関連論文リスト
- DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - WidthFormer: Toward Efficient Transformer-based BEV View Transformation [21.10523575080856]
WidthFormerは、リアルタイム自動運転アプリケーションのためのマルチビューカメラからBirdのEye-View(BEV)表現を計算するトランスフォーマーベースのモジュールである。
まず,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
次に,特徴圧縮による潜在的な情報損失を補償する2つのモジュールを開発する。
論文 参考訳(メタデータ) (2024-01-08T11:50:23Z) - SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera
Videos [20.51396212498941]
SparseBEVは完全にスパースな3Dオブジェクト検出器で、密度の高い物体よりも優れています。
nuScenesのテスト分割で、SparseBEVは67.5 NDSの最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-18T02:11:01Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - TiG-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry
Learning [7.6887888234987125]
本稿では,LiDARモダリティからカメラベースBEV検出器へのターゲット内形状の学習手法を提案する。
TiG-BEVは、BEVDepthを+2.3% NDS、+2.4% mAP、BEVDetを+9.1% NDS、+10.3% mAPで効果的に増強することができる。
論文 参考訳(メタデータ) (2022-12-28T17:53:43Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。