論文の概要: MatrixVT: Efficient Multi-Camera to BEV Transformation for 3D Perception
- arxiv url: http://arxiv.org/abs/2211.10593v1
- Date: Sat, 19 Nov 2022 05:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 19:57:16.177025
- Title: MatrixVT: Efficient Multi-Camera to BEV Transformation for 3D Perception
- Title(参考訳): MatrixVT: 3次元知覚のための高効率マルチカメラとBEV変換
- Authors: Hongyu Zhou, Zheng Ge, Zeming Li, Xiangyu Zhang
- Abstract要約: 本稿では, MatrixVT と呼ばれる3次元知覚のための, Bird's-Eye-View (BEV) ビュー変換手法を提案する。
我々の手法は、畳み込みと行列乗法(MatMul)のみで効率よくBEV特徴を生成する。
- 参考スコア(独自算出の注目度): 33.63530499693689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an efficient multi-camera to Bird's-Eye-View (BEV) view
transformation method for 3D perception, dubbed MatrixVT. Existing view
transformers either suffer from poor transformation efficiency or rely on
device-specific operators, hindering the broad application of BEV models. In
contrast, our method generates BEV features efficiently with only convolutions
and matrix multiplications (MatMul). Specifically, we propose describing the
BEV feature as the MatMul of image feature and a sparse Feature Transporting
Matrix (FTM). A Prime Extraction module is then introduced to compress the
dimension of image features and reduce FTM's sparsity. Moreover, we propose the
Ring \& Ray Decomposition to replace the FTM with two matrices and reformulate
our pipeline to reduce calculation further. Compared to existing methods,
MatrixVT enjoys a faster speed and less memory footprint while remaining
deploy-friendly. Extensive experiments on the nuScenes benchmark demonstrate
that our method is highly efficient but obtains results on par with the SOTA
method in object detection and map segmentation tasks
- Abstract(参考訳): 本稿では, MatrixVT と呼ばれる3次元知覚のための, Bird's-Eye-View (BEV) ビュー変換手法を提案する。
既存のビュートランスフォーマーは変換効率が悪いか、デバイス固有のオペレータに依存しており、bevモデルの幅広い適用を妨げる。
対照的に、本手法は畳み込みと行列乗法(MatMul)のみを用いてBEV特性を効率的に生成する。
具体的には,BEV の特徴を画像特徴の MatMul とスパース特徴輸送行列 (FTM) として記述する。
次に、画像特徴の次元を圧縮し、FTMの間隔を減らすためにプライム抽出モジュールが導入された。
さらに,ftmを2つの行列に置き換え,計算量を減らすためにパイプラインを再構成するために,環 \&ray分解を提案する。
既存の方法と比較して、MatrixVTは高速で、メモリフットプリントも少なく、デプロイしやすい。
nuScenesベンチマークの大規模な実験により,本手法は高効率であるが,オブジェクト検出およびマップ分割タスクにおけるSOTA法と同等の結果が得られた。
関連論文リスト
- EVT: Efficient View Transformation for Multi-Modal 3D Object Detection [2.9848894641223302]
効率的なビュー変換(EVT)による新しい3次元物体検出法を提案する。
EVTは、アダプティブサンプリングとアダプティブプロジェクション(ASAP)を使用して、3Dサンプリングポイントとアダプティブカーネルを生成する。
トランスデコーダ内で得られたマルチモーダルBEV機能を効果的に活用するように設計されている。
論文 参考訳(メタデータ) (2024-11-16T06:11:10Z) - Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - MaskBEV: Towards A Unified Framework for BEV Detection and Map Segmentation [14.67253585778639]
MaskBEVは、マスキングによるマルチタスク学習パラダイムである。
3Dオブジェクトの検出と鳥の目視(BEV)マップのセグメンテーションを統一する。
3Dオブジェクト検出の1.3 NDS改善とBEVマップセグメンテーションの2.7 mIoU改善を実現している。
論文 参考訳(メタデータ) (2024-08-17T07:11:38Z) - InverseMatrixVT3D: An Efficient Projection Matrix-Based Approach for 3D Occupancy Prediction [11.33083039877258]
InverseMatrixVT3Dは,多視点画像特徴量を3次元特徴量に変換することで,セマンティック占有率の予測を行う。
プロジェクション行列に対するスパース行列処理手法を導入し,GPUメモリ使用率を最適化する。
本手法は,自動運転と道路安全に不可欠な,脆弱な道路利用者(VRU)の検出において,最高の性能を実現する。
論文 参考訳(メタデータ) (2024-01-23T01:11:10Z) - WidthFormer: Toward Efficient Transformer-based BEV View Transformation [21.10523575080856]
WidthFormerは、リアルタイム自動運転アプリケーションのためのマルチビューカメラからBirdのEye-View(BEV)表現を計算するトランスフォーマーベースのモジュールである。
まず,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
次に,特徴圧縮による潜在的な情報損失を補償する2つのモジュールを開発する。
論文 参考訳(メタデータ) (2024-01-08T11:50:23Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - An Efficient Transformer for Simultaneous Learning of BEV and Lane
Representations in 3D Lane Detection [55.281369497158515]
3次元車線検出のための効率的な変圧器を提案する。
バニラ変圧器と異なり、我々のモデルは車線とBEVの表現を同時に学習するクロスアテンション機構を含んでいる。
本手法は,2次元および3次元の車線特徴を画像ビューとBEVの特徴にそれぞれ適用することにより,2次元および3次元車線予測を実現する。
論文 参考訳(メタデータ) (2023-06-08T04:18:31Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary
Camera Rigs [3.5728676902207988]
任意のカメラリグからのBEVセマンティックセマンティックセグメンテーションのための効果的なトランスフォーマーベース手法を提案する。
具体的には、まず任意のカメラから画像の特徴を共有バックボーンで符号化する。
BEV-to-imageビュー変換を行うために、効率的なマルチカメラ変形型アテンションユニットを設計する。
論文 参考訳(メタデータ) (2022-03-08T12:39:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。