論文の概要: Multi-Camera Calibration Free BEV Representation for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2210.17252v1
- Date: Mon, 31 Oct 2022 12:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 17:53:52.734056
- Title: Multi-Camera Calibration Free BEV Representation for 3D Object Detection
- Title(参考訳): 3次元物体検出のためのマルチカメラキャリブレーションフリーbev表現
- Authors: Hongxiang Jiang, Wenming Meng, Hongmei Zhu, Qian Zhang, Jihao Yin
- Abstract要約: 我々は,頑健なBird's Eye View (BEV) 表現のための完全マルチカメラフリートランス (CFT) を提案する。
CFTが設計した位置認識強化(PA)を介してBEVの3D情報をマイニングする
CFTは、カメラパラメータを除去する最初の作業であるnuScenes検出タスクリーダーボードで49.7%のNDSを達成した。
- 参考スコア(独自算出の注目度): 8.085831393926561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In advanced paradigms of autonomous driving, learning Bird's Eye View (BEV)
representation from surrounding views is crucial for multi-task framework.
However, existing methods based on depth estimation or camera-driven attention
are not stable to obtain transformation under noisy camera parameters, mainly
with two challenges, accurate depth prediction and calibration. In this work,
we present a completely Multi-Camera Calibration Free Transformer (CFT) for
robust BEV representation, which focuses on exploring implicit mapping, not
relied on camera intrinsics and extrinsics. To guide better feature learning
from image views to BEV, CFT mines potential 3D information in BEV via our
designed position-aware enhancement (PA). Instead of camera-driven point-wise
or global transformation, for interaction within more effective region and
lower computation cost, we propose a view-aware attention which also reduces
redundant computation and promotes converge. CFT achieves 49.7% NDS on the
nuScenes detection task leaderboard, which is the first work removing camera
parameters, comparable to other geometry-guided methods. Without temporal input
and other modal information, CFT achieves second highest performance with a
smaller image input 1600 * 640. Thanks to view-attention variant, CFT reduces
memory and transformer FLOPs for vanilla attention by about 12% and 60%,
respectively, with improved NDS by 1.0%. Moreover, its natural robustness to
noisy camera parameters makes CFT more competitive.
- Abstract(参考訳): 自律運転の高度なパラダイムでは、周囲の視点からバードアイビュー(bev)表現を学ぶことはマルチタスクフレームワークにとって不可欠である。
しかし、深度推定やカメラ駆動の注意に基づく既存の手法では、ノイズの多いカメラパラメータ下での変換は安定せず、主に精度の高い深度予測とキャリブレーションという2つの課題がある。
本稿では,カメラ内在性や外在性に依存しない暗黙的マッピングの探索に焦点を当てた,ロバストなbev表現のための完全マルチカメラキャリブレーションフリートランスフォーマ(cft)を提案する。
画像ビューからBEVへのより良い特徴学習を導くため、CFTは設計した位置認識強化(PA)を通してBEVの潜在的な3D情報をマイニングする。
より効率的な領域でのインタラクションや計算コストの低減のために,カメラ駆動のポイントワイドやグローバルトランスフォーメーションの代わりに,冗長な計算を減らし,収束を促進するビューアウェアアテンションを提案する。
cftはヌースセンシング検出タスクのリーダーボード上で49.7%のndsを達成しており、これは他の幾何誘導方式に匹敵するカメラパラメータを削除する最初の作業である。
時間入力やその他のモーダル情報がなければ、CFTは1600 * 640より小さい画像入力で2番目に高い性能を達成する。
ビューアテンション変異により、CFTはバニラ注意のためのメモリとトランスフォーマーFLOPをそれぞれ約12%と60%削減し、NDSを1.0%改善した。
さらに、ノイズの多いカメラパラメータに対する自然な堅牢性により、CFTはより競争力がある。
関連論文リスト
- WidthFormer: Toward Efficient Transformer-based BEV View Transformation [21.10523575080856]
WidthFormerは、リアルタイム自動運転アプリケーションのためのマルチビューカメラからBirdのEye-View(BEV)表現を計算するトランスフォーマーベースのモジュールである。
まず,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
次に,特徴圧縮による潜在的な情報損失を補償する2つのモジュールを開発する。
論文 参考訳(メタデータ) (2024-01-08T11:50:23Z) - CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity [34.025530326420146]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。
道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文 参考訳(メタデータ) (2023-10-04T13:38:53Z) - Multi-camera Bird's Eye View Perception for Autonomous Driving [17.834495597639805]
他のエージェントや構造の空間的推論を可能にするためには、3Dで知覚出力を生成することが不可欠である。
カメラ画像から所望のBEV表現を達成するための最も基本的なアプローチは、平らな地面を仮定してIPMである。
近年のアプローチでは、ディープニューラルネットワークを使用してBEV空間を直接出力している。
論文 参考訳(メタデータ) (2023-09-16T19:12:05Z) - An Efficient Transformer for Simultaneous Learning of BEV and Lane
Representations in 3D Lane Detection [55.281369497158515]
3次元車線検出のための効率的な変圧器を提案する。
バニラ変圧器と異なり、我々のモデルは車線とBEVの表現を同時に学習するクロスアテンション機構を含んでいる。
本手法は,2次元および3次元の車線特徴を画像ビューとBEVの特徴にそれぞれ適用することにより,2次元および3次元車線予測を実現する。
論文 参考訳(メタデータ) (2023-06-08T04:18:31Z) - Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline [76.48192454417138]
Bird's-Eye View (BEV)の表現は、次世代自動運転車(AV)の認識の基礎として期待されている。
本稿では,車載チップ上で高速なBEV認識を実現するフレームワークであるFast-BEVを提案する。
論文 参考訳(メタデータ) (2023-01-29T18:43:31Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - BEVDet: High-performance Multi-camera 3D Object Detection in
Bird-Eye-View [15.560366079077449]
我々は,2次元オブジェクト検出タスクにおける性能境界を押し上げるために,BEVDetパラダイムを貢献する。
BeVDetは,Bird-Eye-View (BEV) における3次元物体検出の原則に従って開発され,経路計画を手作業で行うことができる。
提案手法は,マルチカメラ3Dオブジェクト検出において有効であり,計算予算と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2021-12-22T10:48:06Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。